Er zijn momenteel geen vacatures.
Er zijn momenteel geen vacatures.
HDFS
De twee voornaamste componenten zijn het Hadoop Distributed File System (HDFS) voor de opslag van data en het Map Reduce (M/R) framework voor het bewerken en analyseren van deze data. HDFS verdeelt de data in beheerbare secties voor gebruik of verwerking, maar zorgt ook voor redundantie zodat er niets kwijtraakt als er een disk of zelfs complete computer uitvalt. De data hoeft niet gestructureerd te zijn, wat Hadoop ideaal maakt voor het opslaan en analyseren van data uit bronnen als social media, documenten en grafieken. Hadoop is met de Map/Reduce aanpak vooral geschikt voor grootschalige batchverwerking en wordt voor bijvoorbeeld geavanceerde analyses met andere technologieën gecombineerd. Dit heeft geresulteerd in heel ecosysteem van rond Hadoop gebouwde tools en connectoren.
Nieuwe inzichten
Je kunt visuele analyses gebruiken als onderdeel van de datavoorbereiding en ook voor het zoeken naar inzichten. Zo kun je eenvoudige visualisaties uitvoeren of beschrijvende statistiek gebruiken om te bepalen wat er in data zit of om voor geavanceerde analyse relevante variabelen te identificeren. Zoek daarom een leverancier die functionaliteit kan bieden voor query, visualisatie en beschrijvende statistiek.
Tekstdata
Een typisch Hadoop-cluster bevat vooral tekstdata. Dit is logisch omdat HDFS als opslagsysteem wordt gebruikt om ongestructureerde en semi-gestructureerde data op te slaan. Een belangrijk voordeel is dat de gegevens gebruikt kunnen worden om een completer beeld van de klanten en activiteiten te krijgen. Sommige bedrijven schrijven code om informatie aan tekstgegevens te ontlenen. Andere organisaties gebruiken commerciële tekstanalyse zoals ‘natural language processing’ en statistische technieken om tekstdata te extraheren en structureren. Zo kunnen ze gecombineerd worden met de gestructureerde data voor geavanceerde analysetechnieken zoals voorspellend modelleren.