Što je Data Lake? To je Arhitektura

Sadržaj:

Anonim

Što je Data Lake?

Data Lake je spremište za pohranu koje može pohraniti veliku količinu strukturiranih, polustrukturiranih i nestrukturiranih podataka. To je mjesto za pohranu svake vrste podataka u izvornom formatu bez fiksnih ograničenja veličine računa ili datoteke. Nudi veliku količinu podataka za povećanje analitičkih performansi i nativne integracije.

Data Lake je poput velikog spremnika koji je vrlo sličan stvarnom jezeru i rijekama. Baš kao što u jezero imate više pritoka, podatkovno jezero ima strukturirane podatke, nestrukturirane podatke, stroj za stroj, zapisnike koji prolaze u stvarnom vremenu.

Jezero podataka demokratizira podatke i troškovno je učinkovit način za pohranu svih podataka organizacije za kasniju obradu. Istraživački analitičar može se usredotočiti na pronalaženje znakovnih obrazaca u podacima, a ne na samim podacima.

Za razliku od hijerarhijske kuće Dataware gdje se podaci pohranjuju u Datoteke i mape, Data Lake ima ravnu arhitekturu. Svi elementi podataka u Data Lakeu dobivaju jedinstveni identifikator i označeni su skupom podataka o metapodacima.

U ovom vodiču naučit ćete-

  • Što je Data Lake?
  • Zašto Data Lake?
  • Arhitektura podataka jezera
  • Ključni koncepti jezera podataka
  • Faze zrelosti jezera podataka
  • Najbolji primjeri za primjenu jezera podataka:
  • Razlika između jezera podataka i skladišta podataka
  • Prednosti i rizici upotrebe Data Lake:

Zašto Data Lake?

Glavni cilj izgradnje podatkovnog jezera je pružiti nerafinirani pogled na podatke znanstvenicima podataka.

Razlozi za korištenje Data Lakea su:

  • Pojavom mehanizama za pohranu poput Hadoopa pohranjivanje različitih podataka postalo je jednostavno. Nema potrebe za modeliranjem podataka u shemu za cijelo poduzeće s Data Lakeom.
  • Povećanjem volumena podataka, kvalitete podataka i metapodataka povećava se i kvaliteta analiza.
  • Data Lake nudi poslovnu okretnost
  • Strojno učenje i umjetna inteligencija mogu se koristiti za profitabilna predviđanja.
  • Nudi provedbenu organizaciju konkurentsku prednost.
  • Ne postoji struktura silosa za podatke. Data Lake pruža 360 stupnjeva pogleda na kupce i čini analizu robusnijom.

Arhitektura podataka jezera

Slika prikazuje arhitekturu jezera s poslovnim podacima. Donje razine predstavljaju podatke koji uglavnom miruju, dok gornje razine prikazuju podatke o transakcijama u stvarnom vremenu. Ti podaci prolaze kroz sustav bez ikakvih ili malo kašnjenja. Slijede važni razredi u arhitekturi Data Lake:

  1. Razina gutanja : Razine na lijevoj strani prikazuju izvore podataka. Podaci se mogu učitati u podatkovno jezero u skupinama ili u stvarnom vremenu
  2. Razina uvida: Razine s desne strane predstavljaju stranu istraživanja gdje se koriste uvidi iz sustava. Za analizu podataka mogu se koristiti SQL, NoSQL upiti ili čak excel.
  3. HDFS je isplativo rješenje za strukturirane i nestrukturirane podatke. To je zona slijetanja za sve podatke koji miruju u sustavu.
  4. Razina destilacije uzima podatke iz gume za skladištenje i pretvara ih u strukturirane podatke radi lakše analize.
  5. Analitički algoritmi obrade slojeva i upiti korisnika s različitim stvarnim vremenom, interaktivni, batch, stvaraju strukturirane podatke za lakšu analizu.
  6. Jedinstvena razina operacija upravlja upravljanjem i praćenjem sustava. Uključuje reviziju i upravljanje stručnošću, upravljanje podacima, upravljanje tijekom rada.

Ključni koncepti jezera podataka

Slijede ključni koncepti jezera podataka koje treba razumjeti da bismo u potpunosti razumjeli arhitekturu jezera podataka

Unos podataka

Unos podataka omogućuje priključcima da dobiju podatke iz različitih izvora podataka i učitaju se u jezero podataka.

Unos podataka podržava:

  • Sve vrste strukturiranih, polustrukturiranih i nestrukturiranih podataka.
  • Više unosa poput skupnog, stvarnog vremena, jednokratnog učitavanja.
  • Mnoge vrste izvora podataka kao što su baze podataka, web poslužitelji, e-adrese, IoT i FTP.

Pohrana podataka

Pohrana podataka trebala bi biti skalabilna, nudi isplativu pohranu i omogućiti brz pristup istraživanju podataka. Trebao bi podržavati razne formate podataka.

Upravljanje podacima

Upravljanje podacima postupak je upravljanja dostupnošću, uporabljivošću, sigurnošću i integritetom podataka koji se koriste u organizaciji.

Sigurnost

Sigurnost treba uvesti u svaki sloj jezera podataka. Počinje s pohranom, iskapanjem i potrošnjom. Osnovna je potreba zaustaviti pristup neovlaštenim korisnicima. Trebao bi podržavati različite alate za pristup podacima uz jednostavan GUI i nadzorne ploče.

Autentifikacija, računovodstvo, autorizacija i zaštita podataka neke su važne značajke sigurnosti jezera podataka.

Kvaliteta podataka:

Kvaliteta podataka bitna je komponenta arhitekture Data Lake. Podaci se koriste za točnu poslovnu vrijednost. Izdvajanje uvida iz podataka loše kvalitete dovest će do uvida loše kvalitete.

Otkrivanje podataka

Otkrivanje podataka je još jedna važna faza prije nego što započnete s pripremom podataka ili analizom. U ovoj se fazi tehnika označavanja koristi za izražavanje razumijevanja podataka, organiziranjem i tumačenjem podataka unesenih u jezero Data.

Revizija podataka

Dva glavna zadatka revizije podataka su praćenje promjena u ključnom skupu podataka.

  1. Praćenje promjena na važnim elementima skupa podataka
  2. Snima kako / kada / i tko mijenja te elemente.

Revizija podataka pomaže u procjeni rizika i usklađenosti.

Podatkovna loza

Ova se komponenta bavi podrijetlom podataka. Uglavnom se bavi onim kamo se kreće s vremenom i što mu se događa. Olakšava ispravljanje pogrešaka u procesu analitike podataka od izvora do odredišta.

Istraživanje podataka

To je početna faza analize podataka. Pomaže prepoznati pravi skup podataka prije nego što započne istraživanje podataka.

Sve dane komponente trebaju surađivati ​​kako bi igrale važnu ulogu u izgradnji jezera Data, a koje se lako mogu razvijati i istraživati ​​okoliš.

Faze zrelosti jezera podataka

Definicija faza zrelosti jezera podataka razlikuje se od udžbenika do udžbenika. Iako suština ostaje ista. Nakon zrelosti, definicija pozornice je s laičkog gledišta.

Faza 1: Obrada i unos podataka u razmjeru

Ova prva faza zrelosti podataka uključuje poboljšanje sposobnosti transformacije i analize podataka. Ovdje vlasnici tvrtki trebaju pronaći alate prema njihovom skupu vještina za dobivanje više podataka i izgradnju analitičkih aplikacija.

Faza 2: Izgradnja analitičkog mišića

Ovo je druga faza koja uključuje poboljšanje sposobnosti transformacije i analize podataka. U ovoj fazi tvrtke koriste alat koji je najprikladniji za njihov skup vještina. Počinju prikupljati više podataka i graditi aplikacije. Ovdje se zajedno koriste mogućnosti skladišta podataka poduzeća i jezera podataka.

Faza 3: EDW i Data Lake djeluju složno

Ovaj korak uključuje davanje podataka i analitike u ruke što većem broju ljudi. U ovoj fazi podatkovno jezero i skladište podataka poduzeća počinju raditi u sindikatu. Oboje igraju svoju ulogu u analitici

Faza 4: Sposobnost poduzeća u jezeru

U ovoj fazi zrelosti jezera podataka, jezgre podataka dodaju se poslovne sposobnosti. Usvajanje upravljanja informacijama, mogućnosti upravljanja životnim ciklusom informacija i upravljanja metapodacima. Međutim, vrlo malo organizacija može doseći ovu razinu zrelosti, ali to će se povećati u budućnosti.

Najbolji primjeri za primjenu jezera podataka:

  • Arhitektonske komponente, njihova interakcija i identificirani proizvodi trebali bi podržavati izvorne tipove podataka
  • Dizajn jezera podataka trebao bi se voditi onim što je dostupno umjesto onoga što je potrebno. Zahtjev za shemom i podacima nije definiran dok se ne postavi upit
  • Dizajn bi se trebao voditi jednokratnim komponentama integriranim sa servisnim API-jem.
  • Otkrivanjem, unosom, pohranom, administracijom, kvalitetom, transformacijom i vizualizacijom podataka treba upravljati neovisno.
  • Arhitektura Data Lake trebala bi biti prilagođena određenoj industriji. Trebao bi osigurati da su sposobnosti potrebne za tu domenu sastavni dio dizajna
  • Važno je brže ukrcavanje u novootkrivene izvore podataka
  • Data Lake pomaže prilagođenom upravljanju da izvuče maksimalnu vrijednost
  • Jezero podataka trebalo bi podržavati postojeće tehnike i metode upravljanja podacima u poduzeću

Izazovi izgradnje podatkovnog jezera:

  • U Data Lakeu količina podataka je veća, pa se postupak mora više oslanjati na programsku administraciju
  • Teško je nositi se s rijetkim, nepotpunim, nestabilnim podacima
  • Širi opseg skupa podataka i izvora zahtijeva veće upravljanje podacima i podršku

Razlika između jezera podataka i skladišta podataka

Parametri Jezera podataka Skladište podataka
Podaci Podatkovna jezera pohranjuju sve. Skladište podataka usredotočeno je samo na poslovne procese.
Obrada Podaci se uglavnom ne obrađuju Visoko obrađeni podaci.
Vrsta podataka Može biti nestrukturirano, polustrukturirano i strukturirano. Uglavnom je u tabličnom obliku i strukturi.
Zadatak Podijelite upravljanje podacima Optimizirano za preuzimanje podataka
Agilnost Vrlo okretan, konfigurirajte i po potrebi konfigurirajte. U usporedbi s Data jezerom manje je okretno i ima fiksnu konfiguraciju.
Korisnici Data Lake uglavnom koristi Data Scientist Poslovni profesionalci široko koriste skladište podataka
Skladištenje Dizajn podatkovnih jezera za jeftinu pohranu. Koristi se skupa pohrana koja omogućuje brzo vrijeme odziva
Sigurnost Nudi manju kontrolu. Omogućuje bolju kontrolu podataka.
Zamjena EDW-a Podatkovno jezero može biti izvor EDW-a Dopunjuje EDW (nije zamjena)
Shema Shema za čitanje (nema unaprijed definiranih shema) Shema pri upisivanju (unaprijed definirane sheme)
Obrada podataka Pomaže u brzom unošenju novih podataka. Uvođenje novog sadržaja oduzima puno vremena.
Granularnost podataka Podaci na niskoj razini detalja ili granularnosti. Podaci na sažetoj ili agregiranoj razini detalja.
Alati Može koristiti otvoreni izvor / alate poput Hadoop / Map Reduce Uglavnom komercijalni alati.

Prednosti i rizici upotrebe Data Lake:

Evo nekoliko glavnih pogodnosti korištenja podatkovnog jezera:

  • Potpuno pomaže u ioniziranju proizvoda i naprednoj analitici
  • Nudi isplativu skalabilnost i fleksibilnost
  • Nudi vrijednost iz neograničenih vrsta podataka
  • Smanjuje dugoročne troškove vlasništva
  • Omogućuje ekonomično pohranjivanje datoteka
  • Brzo prilagodljiv promjenama
  • Glavna prednost podatkovnog jezera je centralizacija različitih izvora sadržaja
  • Korisnici iz različitih odjela koji su raštrkani širom svijeta mogu imati fleksibilan pristup podacima

Rizik od upotrebe podatkovnog jezera:

  • Nakon nekog vremena Data Lake može izgubiti značaj i zamah
  • Prilikom dizajniranja Data Lakea postoji veći rizik
  • Nestrukturirani podaci mogu dovesti do neupravljanog Chao-a, neupotrebljivih podataka, različitih i složenih alata, suradnje na razini cijele tvrtke, objedinjene, dosljedne i uobičajene
  • Također povećava skladište i izračunava troškove
  • Ne postoji način da se dobiju uvidi od drugih koji su radili s podacima, jer ne postoji rang o nalazima prethodnih analitičara
  • Najveći rizik od podatkovnih jezera je sigurnost i kontrola pristupa. Podaci se ponekad mogu staviti u jezero bez ikakvog nadzora, jer neki od podataka mogu imati privatnost i regulatorne potrebe

Sažetak:

  • Data Lake je spremište za pohranu koje može pohraniti veliku količinu strukturiranih, polustrukturiranih i nestrukturiranih podataka.
  • Glavni cilj izgradnje podatkovnog jezera je pružiti nerafinirani pogled na podatke znanstvenicima podataka.
  • Objedinjeni sloj operacija, nivo obrade, nivo destilacije i HDFS važni su slojevi Data Lake Architecture
  • Unos podataka, pohrana podataka, kvaliteta podataka, revizija podataka, istraživanje podataka, otkrivanje podataka neke su važne komponente arhitekture Data Lake
  • Dizajn jezera podataka trebao bi se voditi onim što je dostupno umjesto onoga što je potrebno.
  • Data Lake smanjuje dugoročne troškove vlasništva i omogućuje ekonomično pohranjivanje datoteka
  • Najveći rizik od podatkovnih jezera je sigurnost i kontrola pristupa. Podaci se ponekad mogu staviti u jezero bez ikakvog nadzora, jer neki od podataka mogu imati privatnost i regulatorne potrebe.