Što je Data Lake? To je Arhitektura

Što je Data Lake?

Data Lake je spremište za pohranu koje može pohraniti veliku količinu strukturiranih, polustrukturiranih i nestrukturiranih podataka. To je mjesto za pohranu svake vrste podataka u izvornom formatu bez fiksnih ograničenja veličine računa ili datoteke. Nudi veliku količinu podataka za povećanje analitičkih performansi i nativne integracije.

Data Lake je poput velikog spremnika koji je vrlo sličan stvarnom jezeru i rijekama. Baš kao što u jezero imate više pritoka, podatkovno jezero ima strukturirane podatke, nestrukturirane podatke, stroj za stroj, zapisnike koji prolaze u stvarnom vremenu.

Jezero podataka demokratizira podatke i troškovno je učinkovit način za pohranu svih podataka organizacije za kasniju obradu. Istraživački analitičar može se usredotočiti na pronalaženje znakovnih obrazaca u podacima, a ne na samim podacima.

Za razliku od hijerarhijske kuće Dataware gdje se podaci pohranjuju u Datoteke i mape, Data Lake ima ravnu arhitekturu. Svi elementi podataka u Data Lakeu dobivaju jedinstveni identifikator i označeni su skupom podataka o metapodacima.

U ovom vodiču naučit ćete-

Što je Data Lake?
Zašto Data Lake?
Arhitektura podataka jezera
Ključni koncepti jezera podataka
Faze zrelosti jezera podataka
Najbolji primjeri za primjenu jezera podataka:
Razlika između jezera podataka i skladišta podataka
Prednosti i rizici upotrebe Data Lake:

Zašto Data Lake?

Glavni cilj izgradnje podatkovnog jezera je pružiti nerafinirani pogled na podatke znanstvenicima podataka.

Razlozi za korištenje Data Lakea su:

Pojavom mehanizama za pohranu poput Hadoopa pohranjivanje različitih podataka postalo je jednostavno. Nema potrebe za modeliranjem podataka u shemu za cijelo poduzeće s Data Lakeom.
Povećanjem volumena podataka, kvalitete podataka i metapodataka povećava se i kvaliteta analiza.
Data Lake nudi poslovnu okretnost
Strojno učenje i umjetna inteligencija mogu se koristiti za profitabilna predviđanja.
Nudi provedbenu organizaciju konkurentsku prednost.
Ne postoji struktura silosa za podatke. Data Lake pruža 360 stupnjeva pogleda na kupce i čini analizu robusnijom.

Arhitektura podataka jezera

Slika prikazuje arhitekturu jezera s poslovnim podacima. Donje razine predstavljaju podatke koji uglavnom miruju, dok gornje razine prikazuju podatke o transakcijama u stvarnom vremenu. Ti podaci prolaze kroz sustav bez ikakvih ili malo kašnjenja. Slijede važni razredi u arhitekturi Data Lake:

Razina gutanja : Razine na lijevoj strani prikazuju izvore podataka. Podaci se mogu učitati u podatkovno jezero u skupinama ili u stvarnom vremenu
Razina uvida: Razine s desne strane predstavljaju stranu istraživanja gdje se koriste uvidi iz sustava. Za analizu podataka mogu se koristiti SQL, NoSQL upiti ili čak excel.
HDFS je isplativo rješenje za strukturirane i nestrukturirane podatke. To je zona slijetanja za sve podatke koji miruju u sustavu.
Razina destilacije uzima podatke iz gume za skladištenje i pretvara ih u strukturirane podatke radi lakše analize.
Analitički algoritmi obrade slojeva i upiti korisnika s različitim stvarnim vremenom, interaktivni, batch, stvaraju strukturirane podatke za lakšu analizu.
Jedinstvena razina operacija upravlja upravljanjem i praćenjem sustava. Uključuje reviziju i upravljanje stručnošću, upravljanje podacima, upravljanje tijekom rada.

Ključni koncepti jezera podataka

Slijede ključni koncepti jezera podataka koje treba razumjeti da bismo u potpunosti razumjeli arhitekturu jezera podataka

Unos podataka

Unos podataka omogućuje priključcima da dobiju podatke iz različitih izvora podataka i učitaju se u jezero podataka.

Unos podataka podržava:

Sve vrste strukturiranih, polustrukturiranih i nestrukturiranih podataka.
Više unosa poput skupnog, stvarnog vremena, jednokratnog učitavanja.
Mnoge vrste izvora podataka kao što su baze podataka, web poslužitelji, e-adrese, IoT i FTP.

Pohrana podataka

Pohrana podataka trebala bi biti skalabilna, nudi isplativu pohranu i omogućiti brz pristup istraživanju podataka. Trebao bi podržavati razne formate podataka.

Upravljanje podacima

Upravljanje podacima postupak je upravljanja dostupnošću, uporabljivošću, sigurnošću i integritetom podataka koji se koriste u organizaciji.

Sigurnost

Sigurnost treba uvesti u svaki sloj jezera podataka. Počinje s pohranom, iskapanjem i potrošnjom. Osnovna je potreba zaustaviti pristup neovlaštenim korisnicima. Trebao bi podržavati različite alate za pristup podacima uz jednostavan GUI i nadzorne ploče.

Autentifikacija, računovodstvo, autorizacija i zaštita podataka neke su važne značajke sigurnosti jezera podataka.

Kvaliteta podataka:

Kvaliteta podataka bitna je komponenta arhitekture Data Lake. Podaci se koriste za točnu poslovnu vrijednost. Izdvajanje uvida iz podataka loše kvalitete dovest će do uvida loše kvalitete.

Otkrivanje podataka

Otkrivanje podataka je još jedna važna faza prije nego što započnete s pripremom podataka ili analizom. U ovoj se fazi tehnika označavanja koristi za izražavanje razumijevanja podataka, organiziranjem i tumačenjem podataka unesenih u jezero Data.

Revizija podataka

Dva glavna zadatka revizije podataka su praćenje promjena u ključnom skupu podataka.

Praćenje promjena na važnim elementima skupa podataka
Snima kako / kada / i tko mijenja te elemente.

Revizija podataka pomaže u procjeni rizika i usklađenosti.

Podatkovna loza

Ova se komponenta bavi podrijetlom podataka. Uglavnom se bavi onim kamo se kreće s vremenom i što mu se događa. Olakšava ispravljanje pogrešaka u procesu analitike podataka od izvora do odredišta.

Istraživanje podataka

To je početna faza analize podataka. Pomaže prepoznati pravi skup podataka prije nego što započne istraživanje podataka.

Sve dane komponente trebaju surađivati kako bi igrale važnu ulogu u izgradnji jezera Data, a koje se lako mogu razvijati i istraživati okoliš.

Faze zrelosti jezera podataka

Definicija faza zrelosti jezera podataka razlikuje se od udžbenika do udžbenika. Iako suština ostaje ista. Nakon zrelosti, definicija pozornice je s laičkog gledišta.

Faza 1: Obrada i unos podataka u razmjeru

Ova prva faza zrelosti podataka uključuje poboljšanje sposobnosti transformacije i analize podataka. Ovdje vlasnici tvrtki trebaju pronaći alate prema njihovom skupu vještina za dobivanje više podataka i izgradnju analitičkih aplikacija.

Faza 2: Izgradnja analitičkog mišića

Ovo je druga faza koja uključuje poboljšanje sposobnosti transformacije i analize podataka. U ovoj fazi tvrtke koriste alat koji je najprikladniji za njihov skup vještina. Počinju prikupljati više podataka i graditi aplikacije. Ovdje se zajedno koriste mogućnosti skladišta podataka poduzeća i jezera podataka.

Faza 3: EDW i Data Lake djeluju složno

Ovaj korak uključuje davanje podataka i analitike u ruke što većem broju ljudi. U ovoj fazi podatkovno jezero i skladište podataka poduzeća počinju raditi u sindikatu. Oboje igraju svoju ulogu u analitici

Faza 4: Sposobnost poduzeća u jezeru

U ovoj fazi zrelosti jezera podataka, jezgre podataka dodaju se poslovne sposobnosti. Usvajanje upravljanja informacijama, mogućnosti upravljanja životnim ciklusom informacija i upravljanja metapodacima. Međutim, vrlo malo organizacija može doseći ovu razinu zrelosti, ali to će se povećati u budućnosti.

Najbolji primjeri za primjenu jezera podataka:

Arhitektonske komponente, njihova interakcija i identificirani proizvodi trebali bi podržavati izvorne tipove podataka
Dizajn jezera podataka trebao bi se voditi onim što je dostupno umjesto onoga što je potrebno. Zahtjev za shemom i podacima nije definiran dok se ne postavi upit
Dizajn bi se trebao voditi jednokratnim komponentama integriranim sa servisnim API-jem.
Otkrivanjem, unosom, pohranom, administracijom, kvalitetom, transformacijom i vizualizacijom podataka treba upravljati neovisno.
Arhitektura Data Lake trebala bi biti prilagođena određenoj industriji. Trebao bi osigurati da su sposobnosti potrebne za tu domenu sastavni dio dizajna
Važno je brže ukrcavanje u novootkrivene izvore podataka
Data Lake pomaže prilagođenom upravljanju da izvuče maksimalnu vrijednost
Jezero podataka trebalo bi podržavati postojeće tehnike i metode upravljanja podacima u poduzeću

Izazovi izgradnje podatkovnog jezera:

U Data Lakeu količina podataka je veća, pa se postupak mora više oslanjati na programsku administraciju
Teško je nositi se s rijetkim, nepotpunim, nestabilnim podacima
Širi opseg skupa podataka i izvora zahtijeva veće upravljanje podacima i podršku

Razlika između jezera podataka i skladišta podataka

Parametri	Jezera podataka	Skladište podataka
Podaci	Podatkovna jezera pohranjuju sve.	Skladište podataka usredotočeno je samo na poslovne procese.
Obrada	Podaci se uglavnom ne obrađuju	Visoko obrađeni podaci.
Vrsta podataka	Može biti nestrukturirano, polustrukturirano i strukturirano.	Uglavnom je u tabličnom obliku i strukturi.
Zadatak	Podijelite upravljanje podacima	Optimizirano za preuzimanje podataka
Agilnost	Vrlo okretan, konfigurirajte i po potrebi konfigurirajte.	U usporedbi s Data jezerom manje je okretno i ima fiksnu konfiguraciju.
Korisnici	Data Lake uglavnom koristi Data Scientist	Poslovni profesionalci široko koriste skladište podataka
Skladištenje	Dizajn podatkovnih jezera za jeftinu pohranu.	Koristi se skupa pohrana koja omogućuje brzo vrijeme odziva
Sigurnost	Nudi manju kontrolu.	Omogućuje bolju kontrolu podataka.
Zamjena EDW-a	Podatkovno jezero može biti izvor EDW-a	Dopunjuje EDW (nije zamjena)
Shema	Shema za čitanje (nema unaprijed definiranih shema)	Shema pri upisivanju (unaprijed definirane sheme)
Obrada podataka	Pomaže u brzom unošenju novih podataka.	Uvođenje novog sadržaja oduzima puno vremena.
Granularnost podataka	Podaci na niskoj razini detalja ili granularnosti.	Podaci na sažetoj ili agregiranoj razini detalja.
Alati	Može koristiti otvoreni izvor / alate poput Hadoop / Map Reduce	Uglavnom komercijalni alati.

Prednosti i rizici upotrebe Data Lake:

Evo nekoliko glavnih pogodnosti korištenja podatkovnog jezera:

Potpuno pomaže u ioniziranju proizvoda i naprednoj analitici
Nudi isplativu skalabilnost i fleksibilnost
Nudi vrijednost iz neograničenih vrsta podataka
Smanjuje dugoročne troškove vlasništva
Omogućuje ekonomično pohranjivanje datoteka
Brzo prilagodljiv promjenama
Glavna prednost podatkovnog jezera je centralizacija različitih izvora sadržaja
Korisnici iz različitih odjela koji su raštrkani širom svijeta mogu imati fleksibilan pristup podacima

Rizik od upotrebe podatkovnog jezera:

Nakon nekog vremena Data Lake može izgubiti značaj i zamah
Prilikom dizajniranja Data Lakea postoji veći rizik
Nestrukturirani podaci mogu dovesti do neupravljanog Chao-a, neupotrebljivih podataka, različitih i složenih alata, suradnje na razini cijele tvrtke, objedinjene, dosljedne i uobičajene
Također povećava skladište i izračunava troškove
Ne postoji način da se dobiju uvidi od drugih koji su radili s podacima, jer ne postoji rang o nalazima prethodnih analitičara
Najveći rizik od podatkovnih jezera je sigurnost i kontrola pristupa. Podaci se ponekad mogu staviti u jezero bez ikakvog nadzora, jer neki od podataka mogu imati privatnost i regulatorne potrebe

Sažetak:

Data Lake je spremište za pohranu koje može pohraniti veliku količinu strukturiranih, polustrukturiranih i nestrukturiranih podataka.
Glavni cilj izgradnje podatkovnog jezera je pružiti nerafinirani pogled na podatke znanstvenicima podataka.
Objedinjeni sloj operacija, nivo obrade, nivo destilacije i HDFS važni su slojevi Data Lake Architecture
Unos podataka, pohrana podataka, kvaliteta podataka, revizija podataka, istraživanje podataka, otkrivanje podataka neke su važne komponente arhitekture Data Lake
Dizajn jezera podataka trebao bi se voditi onim što je dostupno umjesto onoga što je potrebno.
Data Lake smanjuje dugoročne troškove vlasništva i omogućuje ekonomično pohranjivanje datoteka
Najveći rizik od podatkovnih jezera je sigurnost i kontrola pristupa. Podaci se ponekad mogu staviti u jezero bez ikakvog nadzora, jer neki od podataka mogu imati privatnost i regulatorne potrebe.

Što je Data Lake? To je Arhitektura

Sadržaj:

Što je Data Lake?

Zašto Data Lake?

Arhitektura podataka jezera

Ključni koncepti jezera podataka

Unos podataka

Pohrana podataka

Upravljanje podacima

Sigurnost

Kvaliteta podataka:

Otkrivanje podataka

Revizija podataka

Podatkovna loza

Istraživanje podataka

Faze zrelosti jezera podataka

Faza 1: Obrada i unos podataka u razmjeru

Faza 2: Izgradnja analitičkog mišića

Faza 3: EDW i Data Lake djeluju složno

Faza 4: Sposobnost poduzeća u jezeru

Najbolji primjeri za primjenu jezera podataka:

Razlika između jezera podataka i skladišta podataka

Prednosti i rizici upotrebe Data Lake:

Sažetak:

Top 53 pitanja za intervju za ITIL & Odgovori

Što je Jenkins? Alat za kontinuiranu integraciju (CI)

20 najboljih alata za kontinuiranu integraciju (CI) u 2021

Vodič za Microsoft MCSA certifikacijski ispit

Sustav za podršku odlučivanju (DSS): Demo PoS za maloprodaju

Top 12 pitanja o intervjuu za SAP Solution Manager & Odgovori

Top 26 SAP-ovih pitanja o sigurnosnom intervjuu & Odgovori

Razlika između sistemskog softvera i aplikacijskog softvera

K-znači grupiranje u R s primjerom

Top 50 pitanja o intervjuu za Unix & Odgovori

Vodič za rješavanje internih naloga: KO02 & KO88 u SAP-u

Stvaranje profitnog centra pomoću standardne hijerarhije u SAP-u

Vodič za SAP profitni centar: Stvaranje, grupiranje, knjiženje i pojačavanje Planiranje

Tablice SAP CO: Važne tablice u upravljačkom modulu

Mjesto troškova i profitno središte u SAP-u: Koja je razlika?