BLOG
FORRETNINGS-IT

Blog: Business Data Lake - Princip #1

Gem alle de data du kan - uændrede.

[18. september 2015] “Culture eats strategy for breakfast” sagde Peter Drucker og understregede på den måde, at det sværeste at ændre i en organisation er kulturen. Indenfor områderne information management, analytics og rapportering har IT dog konstant ført en kamp mod en forretningskultur, de hverken havde mulighed eller beføjelser til at ændre.

Det er delvist sket af to årsager: Omkostningerne ved at lagre og flytte data samt en IT fastsat begrænsning: ”Single Canonical Form”.

Konsekvensen af disse begrænsninger er, at mens IT har arbejdet mod et centralt data warehouse, så har forretningen øget brugen af Excel ark og isolerede løsninger. Udfordringen for IT er, at værdien af information stiger så forretningens villighed til at acceptere langsom evolution af centrale løsninger falder. Business data lake forsøger at løse denne udfordring. Ved at bruge big data teknologier til at reducere omkostningerne til at lagre data. Og ved at understøtte kulturen med lokale forretningsløsninger – på en enkelt platform: Business data lake.

Den første forandring i forbindelse med business data lake er ønsket om at gemme alt uden ændringer. Ved at benytte Hadoop technology (HDFS) er det muligt at dumpe al information fra alle kilder direkte i Hadoop uden at tænke på transformationer og formater. Denne tilgang betyder at:

  • Det er muligt at lave tidsanalyser på data
  • Mapping af data kan vente til der er brug for det og forsinker dermed ikke inddragelse af nye data kilder

Denne tilgang giver meget hurtige leverancer med lav teknisk kompleksitet. Det betyder også at IT allerede har stillet data til rådighed og ikke blot den aktuelle information, men den fulde historik fra kilderne.

For de færreste virksomheder er business data lake en erstatning for et centralt data warehouse – det vil oftest være et supplement. Ud over at stille de rå data til rådighed hurtigt for forretningen hjælper business data lake også IT med ETL processerne i forbindelse med data warehouse. I stedet for at skulle udvikle en forbindelse via ETL fra samtlige fødesystemer til data warehouse, kan arbejdet koncentreres om at finde den relevante information i business data lake og føde data warehouse derfra. Stort set alle systemer har en indbygget mulighed for at aflevere data i et eller andet format. Ved at udnytte denne mulighed sikres simplere integration til alle fødesystemer. Når der loades data fra business data lake til data warehouse belastes fødesystemerne ikke. Hastigheden går også ofte op, da Hadoop er født til parallelitet i modsætning til mange kommercielt tilgængelige applikationer, der oftest er bygget til seriel behandling af data og understøttelse af arbejdsprocesser.

Den historiske årsag til modstand mod dette princip er væk – prisen på datalagring er faldet drastisk de sidste årtier. Når talen går på data til analytiske formål er spørgsmålet altså ikke længere ”Har vi råd til at gemme disse data?”, men bør være ”Er det lovligt at vi gemmer disse data?” – men det er et helt andet spørgsmål, der ikke har noget at gøre med principperne for et nyt koncept som Business Data Lake.

 

Erik Haahr
Erik Haahr
Managing Consultant
+45 52189364
todo todo