Er zijn momenteel geen vacatures.
Er zijn momenteel geen vacatures.
Hadoop
Hadoop is een open-source softwareraamwerk van The Apache Software Foundation waarmee computerclusters tot vele petabytes aan ongestructureerde data op commodity hardware kunnen verwerken. De set algoritmen van Hadoop bestaat als totaaloplossing uit een aantal modules:
Hadoop Common – de kern van het pakket wat libraries en utilities bevat voor de andere Hadoop-modulen.
Hadoop Distributed File System (HDFS) – een bestandssysteem dat data gedistribueerd opslaat, wat leidt tot hoge bandbreedte verspreidt over een cluster. Dit bestandssysteem is gebaseerd op Google File System.
YARN – een platform waarmee je resources kunt beheren en geagendeerd kunt plannen.
MapReduce – een programmeermodel voor dataverwerking gericht op hoge volumes, ook dit is gebaseerd op een vinding van Google.
Hoe werkt het?
Zoals gemeld werkt Hadoop met een gedistribueerd bestandssysteem (HDFS) wat maakt dat data op meerdere nodes kunnen staan en geaggregeerd met een hoge bandbreedte door een cluster behandeld kunnen worden. Dankzij Hadoop kunnen bedrijven bijvoorbeeld razendsnel meerdere scenario’s tegelijkertijd doorrekenen om op basis daarvan beslissingen te maken. Hadoop verzamelt informatie als logs en eventdata, maar kan ook overweg met site-activiteit (cookies) en content van social media sites. Eigenlijk kan het alle typen data die het aangeleverd krijgt verwerken.
Wie beheren Hadoop?
Het Hadoop-raamwerk is geschreven in Java en kent een ontwikkelaarscommunity waarin duizenden vrijwilligers en professionals aan de vrije software bijdragen. Yahoo, feitelijk de uitvinder van Hadoop, levert de grootste bijdrage aan het project en gebruikt de tooling veelvuldig binnen de eigen bedrijfsmuren. Hadoop staat op moment van schrijven meer dan 60.000 nodes (servers) geïnstalleerd bij de voormalige zoekgigant. Hiermee wordt meer dan honderden petabytes aan data beheerd en draait het bedrijf dagelijks 850.000 Hadoop-jobs. Andere organisaties die actief bijdragen aan de code zijn onder meer UC Berkeley, Hortonworks, Cloudera, LinkedIn, IBM, Twitter en Microsoft.
Waarom Hadoop?
Bij gebruik van Hadoop gaat het dus om het verwerken van grote hoeveelheden data. Dit fenomeen van een almaar toenemende berg data waarin bedrijven de spreekwoordelijke speld in de hooiberg willen vinden, door lastige vragen te beantwoorden en antwoorden te krijgen op misschien nu nog onbekende vragen, heet met een buzzterm ‘big data’. Platforms voor big data analytics beginnen bij Hadoop en kunnen worden uitgebreid met pakketten die de data uitgebreid analyseren.