Er zijn momenteel geen vacatures.
Er zijn momenteel geen vacatures.
HIVE
Apache Hive is een datawarehouse – softwareproject dat bovenop Apache Hadoop is gebouwd voor het leveren van gegevens en analyse. Hive geeft een SQL- achtige interface voor het opvragen van gegevens die zijn opgeslagen in verschillende databases en bestandssystemen die zijn geïntegreerd met Hadoop. Traditionele SQL-query’s moeten worden geïmplementeerd in de MapReduce Java-API om SQL-toepassingen en query’s over gedistribueerde gegevens uit te voeren. Hive biedt de noodzakelijke SQL-abstractie om SQL-achtige zoekopdrachten te integreren (HiveQ) in de onderliggende Java zonder de noodzaak om query’s in de low-level Java API te implementeren. Omdat de meeste data warehousing-applicaties werken met SQL-gebaseerde query-talen, helpt Hive de draagbaarheid van SQL-gebaseerde applicaties aan Hadoop. Hoewel oorspronkelijk ontwikkeld door Facebook , wordt Apache Hive gebruikt en ontwikkeld door andere bedrijven zoals Netflix en de Financial Industry Regulatory Authority (FINRA). Amazon onderhoudt een softwarevork van Apache Hive opgenomen in Amazon Elastic MapReduce op Amazon Web Services.
Functies
Apache Hive ondersteunt analyse van grote datasets die zijn opgeslagen in Hadoop’s HDFS en compatibele bestandssystemen zoals Amazon S3- bestandssysteem. Het biedt een SQL- achtige querytaal met de naam HiveQL met schema voor lezen en converteert query’s op transparante wijze naar MapReduce , Apache Tez en Spark- taken. Alle drie uitvoeringsmotoren kunnen worden uitgevoerd in Hadoop YARN. Om query’s te versnellen, biedt het indexen, inclusief bitmap-indexen. Andere kenmerken van Hive zijn onder andere:
Indexeren om versnelling te bieden, indextype inclusief verdichting en bitmapindex vanaf 0.10, meer indextypes zijn gepland.
Verschillende opslagtypen zoals platte tekst, RCFile, HBase, ORC en andere.
Opslag van metagegevens in een relationeel databasebeheersysteem, waardoor de tijd voor het uitvoeren van semantische controles tijdens de uitvoering van query’s aanzienlijk wordt verkort.
Werkend op gecomprimeerde gegevens opgeslagen in het Hadoop-ecosysteem met behulp van algoritmen zoals DEFLATE, BWT, pittig, enz.
Ingebouwde, door de gebruiker gedefinieerde functies (UDF’s) om datums, strings en andere tools voor datamining te manipuleren. Hive ondersteunt het uitbreiden van de UDF-set om use-cases af te handelen die niet worden ondersteund door ingebouwde functies.
SQL-achtige zoekopdrachten (HiveQL), die impliciet worden omgezet in MapReduce of Tez, of Spark-taken.
Hive slaat standaard metadata op in een ingesloten Apache Derby- database, en andere client/server-databases zoals MySQL kunnen optioneel worden gebruikt.
De eerste vier bestandsindelingen die in Hive werden ondersteund, waren platte tekst, sequentiebestand, geoptimaliseerd rij-kolom (ORC)-formaat en RCFile. Apache Parquet kan via een plugin worden gelezen in versies die later zijn dan 0,10 en die oorspronkelijk beginnen bij 0,13. Aanvullende Hive-plug-ins ondersteunen het opvragen van de Bitcoin- blockchain.