BLOG
DIGITAL

Blog: Hvordan anvender jeg Big data?

Første gang du får behov for at håndtere Big Data, er det nærliggende blot at hente et par OpenSource værktøjer og gå i gang – start småt! Der er dog en grund til ordsproget ”Tænk stort – start småt!”. En række ting bliver nemmere, hvis det er planlagt på forhånd.

[13. maj 2015] Analyse af Big Data er en helt anden analyseopgave end at analysere strukturerede data med kendt format og god data kvalitet. Det stiller krav til organisationen på en række punkter ud over det åbenlyse at kunne håndtere den aktuelle datamængde. Kravene kan opdeles i følgende grupper:

  1. Arkitektur. Hvordan skal Big Data og den understøttende teknologi integreres med eksisterende data og teknologi
  2. Teknologi. Hvilke produkter skal bruges til at opbevare, behandle og visualisere Big Data
  3. Organisation. Hvordan skal Big Data resourcerne organiseres
  4. Kompetencer. Hvilke kompetencer er nødvendige for at få værdi ud af Big Data

Inden jeg kaster mig over arkitekturdelen, der er mit fokus område, vil jeg kort berøre de øvrige aspekter, da disse også er af vital betydning for at få udbytte af Big Data.

Big Data er kendetegnet ved at værdien er godt gemt – at finde værdi i Big Data er som at finde en nål i en høstak. Det engelske ord serendipity (på dansk lykketræf) benyttes ofte til at beskrive en mulig fremgangsmåde – den er da også god når den virker, men de fleste vil dog gerne klare sig lidt bedre end held alene kan sikre. Du må ofte vælge mellem to svære beslutninger

a) analyser ud fra en hypotese og udeluk dig fra uforudset viden eller;

b) arbejd uden hypotese og dermed uden et gennemprøvet sæt af værktøjer til at af- eller bekræfte hypoteser.

Data scientist er en relativt ny kompetenceprofil, der vil være anvendelig her. En data scientist kan også medvirke til at afklare om en korrellation også kan være en kausalitet og hvilken vej den i givet fald vender.

Når de nødvendige kompetencer er på plads kommer spørgsmålet om den bedste organisering – skal en data scientist sidde tæt på en forretningsenhed for optimal sparring om værdien af data, en IT-enhed for tæt sparring om anskaffelse af og adgang til data eller andre data scientists for optimal sparring om metoder og værktøjer. Et bedre spørgsmål vil være: Hvordan organiserer vi arbejdet med Big Data så alle tre fordele opnås samtidig?

Big Data har været blæst op til det helt store i flere år. Som altid har det ført til en stor underskov af nystartede firmaer, der udvikler væktøjer specielt rettet mod Big Data. En del af disse værktøjer er OpenSource og mange kan leveres i forskellige tilpassede varianter af forskellige leverandører. Det er vigtigt at huske på, at OpenSource ikke er ensbetydende med gratis – det skal stadig implementeres på noget infrastruktur et sted, det skal supporteres og brugerne skal uddannes. Det koster alt sammen penge. Valget mellem kommerciel software og forskellige varianter af OpenSource er således helt åbent.

En af arkitekturudfordringerne er at sikre det rigtige valg af Big Data værktøjer og undgå at ryge i ”en af hver” fælden. F.eks. giver det kun besvær at have både Clouderas og Hortonworks varianter af Hadoop installeret i samme virksomhed. Det er dog den enkleste udfordring. De valgte værktøjer skal spille sammen med hinanden og med den øvrige infrastruktur i virksomheden. Data visualiseringsværktøj skal kunne udnytte data på den lagringsplatform der er valgt til Big Data, men det er også hensigtsmæssigt, at det samme værktøj kan trække på de eksisterende operationelle databaser. For at Big Data kan berige virksomhedens eksisterende data skal data integreres. Alle disse udfordringer skal afklares med arkitekturbeslutninger.

Har du prøvet at lave selv en simpel forespørgsel mod Big Data, ved du at der ikke er tale om splitsekund svartider og derfor også at det ikke er velegnet til operativ beslutningsstøtte i denne form. Den arkitekturmæssigt svære udfordring er, at finde Big Datas rolle i det samlede systemlandskab. Hvordan identificerer du værdifulde (dele af) data og integrerer dem med virksomhedens øvrige data, så de bliver tilgængelige for operationel beslutningsstøtte.

Hele virksomhedens informationsfabrik fra indsamling af rådata til produktion af information, viden og indsigt kan med fordel gentænkes. Begrebet ”Data Lake” er ved at vinde indpas i mange virksomheder, og brugt rigtigt kan det lette mange af de forestående beslutninger om informationsfabrikkens redesign. De fleste virksomheder kommer her til at genoverveje dataindsamling, data warehousing og data arkivering ud fra helt nye koncepter.

is du vil vide lidt mere omkring Big Data og IT-arkitektur, gennemgår jeg emnerne i København og Århus. Deltagelse er gratis og du kan tilmelde dig her:

Erik Haahr
Erik Haahr
Managing Consultant
+45 52189364
todo todo