Proces ETL (izdvajanje, transformacija i učitavanje) u skladištu podataka

Sadržaj:

Anonim

Što je ETL?

ETL je postupak koji ekstrahira podatke iz različitih izvornih sustava, zatim transformira podatke (poput primjene izračuna, spajanja itd.) I konačno učitava podatke u sustav Data Warehouse. Puni oblik ETL-a je Extract, Transform and Load.

Primamljivo je pomisliti da je stvaranje podatkovnog skladišta jednostavno izdvajanje podataka iz više izvora i učitavanje u bazu podataka skladišta podataka. To je daleko od istine i zahtijeva složen ETL postupak. ETL postupak zahtijeva aktivne uloge različitih dionika, uključujući programere, analitičare, testere, najviše rukovoditelje i tehnički je izazov.

Da bi zadržao vrijednost kao alat za donositelje odluka, sustav skladišta podataka mora se mijenjati s poslovnim promjenama. ETL je ponavljajuća aktivnost (svakodnevna, tjedna, mjesečna) sustava skladišta podataka i mora biti okretan, automatiziran i dobro dokumentiran.

U ovom ETL tutorialu naučit ćete-

  • Što je ETL?
  • Zašto vam treba ETL?
  • ETL postupak u skladištima podataka
  • Korak 1) Ekstrakcija
  • Korak 2) Transformacija
  • Korak 3) Učitavanje
  • ETL alati
  • ETL postupak najbolje prakse

Zašto vam treba ETL?

Mnogo je razloga za usvajanje ETL-a u organizaciji:

  • Pomaže tvrtkama da analiziraju svoje poslovne podatke za donošenje kritičnih poslovnih odluka.
  • Transakcijske baze podataka ne mogu odgovoriti na složena poslovna pitanja na koja se može odgovoriti primjerom ETL-a.
  • Skladište podataka nudi zajedničko spremište podataka
  • ETL pruža metodu premještanja podataka iz različitih izvora u skladište podataka.
  • Kako se izvori podataka mijenjaju, skladište podataka će se automatski ažurirati.
  • Dobro osmišljen i dokumentiran ETL sustav gotovo je presudan za uspjeh projekta Data Warehouse.
  • Omogućite provjeru pravila transformacije podataka, agregiranja i izračuna.
  • ETL postupak omogućuje usporedbu uzoraka podataka između izvora i ciljnog sustava.
  • ETL postupak može izvoditi složene transformacije i zahtijeva dodatno područje za pohranu podataka.
  • ETL pomaže u migraciji podataka u skladište podataka. Pretvorite u razne formate i vrste da biste se pridržavali jednog dosljednog sustava.
  • ETL je unaprijed definirani postupak za pristup i manipulaciju izvornim podacima u ciljnu bazu podataka.
  • ETL u skladištu podataka nudi duboki povijesni kontekst za poslovanje.
  • Pomaže u poboljšanju produktivnosti jer se kodificira i ponovno upotrebljava bez potrebe za tehničkim vještinama.

ETL postupak u skladištima podataka

ETL je postupak u 3 koraka

ETL postupak

Korak 1) Ekstrakcija

U ovom koraku ETL arhitekture podaci se iz izvornog sustava izdvajaju u scensko područje. Ako se ikakve transformacije rade u scenskom području tako da performanse izvornog sustava ne budu pogoršane. Također, ako se oštećeni podaci kopiraju izravno iz izvora u bazu podataka Skladišta podataka, povratak će biti izazov. Pokretno područje daje priliku za provjeru izdvojenih podataka prije nego što se presele u skladište podataka.

Skladište podataka mora integrirati sustave koji imaju različite

DBMS, hardver, operativni sustavi i komunikacijski protokoli. Izvori mogu obuhvaćati naslijeđene aplikacije poput glavnih računala, prilagođene aplikacije, uređaje s kontaktnim mjestima poput bankomata, prekidači poziva, tekstualne datoteke, proračunske tablice, ERP, podaci dobavljača, između ostalih.

Stoga treba logička karta podataka prije nego što se podaci fizički izdvoje i učitaju. Ova karta podataka opisuje odnos između izvora i ciljnih podataka.

Tri metode ekstrakcije podataka:

  1. Potpuna ekstrakcija
  2. Djelomično izdvajanje - bez obavijesti o ažuriranju.
  3. Djelomično izdvajanje - s obavijesti o ažuriranju

Neovisno o korištenoj metodi, ekstrakcija ne bi trebala utjecati na performanse i vrijeme odziva izvornih sustava. Ovi izvorni sustavi su baze podataka o proizvodnji uživo. Svako usporavanje ili zaključavanje može utjecati na rezultat tvrtke.

Tijekom vađenja vrše se neke provjere valjanosti:

  • Uskladite zapise s izvornim podacima
  • Pazite da nije učitana neželjena pošta / neželjeni podaci
  • Provjera vrste podataka
  • Uklonite sve vrste dupliciranih / fragmentiranih podataka
  • Provjerite jesu li sve tipke na svom mjestu ili ne

Korak 2) Transformacija

Podaci izvučeni s izvornog poslužitelja su sirovi i ne mogu se koristiti u izvornom obliku. Stoga ga treba očistiti, mapirati i transformirati. Zapravo je ovo ključni korak u kojem ETL postupak dodaje vrijednost i mijenja podatke tako da se mogu generirati pronicljiva BI izvješća.

To je jedan od važnih koncepata ETL-a u kojem na izvađene podatke primjenjujete skup funkcija. Podaci koji ne zahtijevaju nikakvu transformaciju nazivaju se izravnim premještanjem ili prolaskom podataka .

U koraku transformacije možete izvoditi prilagođene operacije na podacima. Na primjer, ako korisnik želi zbroj prihoda od prodaje koji nije u bazi podataka. Ili ako se ime i prezime u tablici nalaze u različitim stupcima. Moguće ih je povezati prije utovara.

Pitanja integracije podataka

Slijede problemi s integritetom podataka:

  1. Različit pravopis iste osobe poput Jona, Johna itd.
  2. Postoji više načina za označavanje naziva tvrtke kao što su Google, Google Inc.
  3. Upotreba različitih imena poput Cleaveland, Cleveland.
  4. Može postojati slučaj da različiti brojevi računa generiraju različite aplikacije za istog kupca.
  5. U nekim podacima potrebne datoteke ostaju prazne
  6. Nevažeći proizvod prikupljen na POS-u kao ručni unos može dovesti do pogrešaka.

Provjere valjanosti vrše se tijekom ove faze

  • Filtriranje - odaberite samo određene stupce za učitavanje
  • Korištenje pravila i tablica pretraživanja za standardizaciju podataka
  • Konverzija i kodiranje skupova znakova
  • Pretvorba mjernih jedinica poput pretvorbe datuma i vremena, pretvorbe valuta, numeričke pretvorbe itd.
  • Provjera valjanosti praga podataka. Na primjer, dob ne može biti veća od dvije znamenke.
  • Provjera protoka podataka iz pripremnog područja u međutablice.
  • Obavezna polja ne smiju biti prazna.
  • Čišćenje (na primjer, mapiranje NULL na 0 ili Spol muškog na "M", a ženskog na "F" itd.)
  • Podijelite stupac u višestruke i spajajući više stupaca u jedan stupac.
  • Transponiranje redaka i stupaca,
  • Koristite pretraživanja za spajanje podataka
  • Korištenje bilo koje složene provjere valjanosti podataka (npr. Ako su prva dva stupca u redu prazna, automatski odbija redak iz obrade)

Korak 3) Učitavanje

Učitavanje podataka u ciljanu bazu podataka skladišta podataka zadnji je korak ETL postupka. U tipičnom skladištu podataka potrebno je učitati ogromnu količinu podataka u relativno kratkom razdoblju (noću). Stoga postupak opterećenja treba optimizirati za izvedbu.

U slučaju kvara opterećenja, mehanizmi oporavka trebaju biti konfigurirani za ponovno pokretanje od točke kvara bez gubitka integriteta podataka. Administratori skladišta podataka trebaju nadgledati, nastaviti, otkazati učitavanja prema prevladavajućim performansama poslužitelja.

Vrste utovara:

  • Početno učitavanje - popunjavanje svih tablica skladišta podataka
  • Inkrementalno opterećenje - povremeno primjenjujte trajne promjene prema potrebi.
  • Potpuno osvježavanje - brisanje sadržaja jedne ili više tablica i ponovno učitavanje svježim podacima.

Provjera opterećenja

  • Osigurajte da podaci ključnog polja ne nedostaju niti su nuli.
  • Testirajte poglede modeliranja na temelju ciljnih tablica.
  • Provjerite jesu li kombinirane vrijednosti i izračunate mjere.
  • Provjera podataka u tablici dimenzija kao i tablici povijesti.
  • Provjerite izvješća BI na učitanoj tablici činjenica i dimenzija.

ETL alati

Na tržištu je dostupno mnogo alata za skladištenje podataka. Evo nekoliko najistaknutijih:

1. MarkLogic:

MarkLogic je rješenje za skladištenje podataka koje olakšava i brže integriranje podataka pomoću niza poslovnih značajki. Može ispitivati ​​različite vrste podataka poput dokumenata, odnosa i metapodataka.

https://www.marklogic.com/product/getting-started/


2. Oracle:

Oracle je vodeća baza podataka u industriji. Nudi širok raspon rješenja Data Warehouse rješenja kako za lokalnu upotrebu tako i za cloud. Pomaže u optimizaciji korisničkih iskustava povećanjem operativne učinkovitosti.

https://www.oracle.com/index.html


3. Amazon RedShift:

Amazon Redshift alat je Datawarehouse. To je jednostavan i isplativ alat za analizu svih vrsta podataka koristeći standardni SQL i postojeće BI alate. Također omogućuje pokretanje složenih upita prema petabajtima strukturiranih podataka.

https://aws.amazon.com/redshift/?nc2=h_m1

Ovdje je potpuni popis korisnih alata za skladište podataka.

ETL postupak najbolje prakse

Slijede najbolje prakse za korake ETL procesa:

Nikada ne pokušavajte očistiti sve podatke:

Svaka organizacija želi imati sve podatke čiste, ali većina njih nije spremna platiti za čekanje ili nije spremna za čekanje. Čišćenje svega jednostavno bi trajalo predugo, pa je bolje ne pokušavati očistiti sve podatke.

Nikad ništa ne čistite:

Uvijek planirajte nešto očistiti jer je najveći razlog za izgradnju podatkovnog skladišta nuđenje čišćih i pouzdanijih podataka.

Odredite cijenu čišćenja podataka:

Prije čišćenja svih prljavih podataka, važno je da odredite troškove čišćenja za svaki prljavi element podataka.

Da biste ubrzali obradu upita, imajte pomoćne prikaze i indekse:

Da biste smanjili troškove pohrane, sažete podatke pohranite na trake diska. Također, potreban je kompromis između količine podataka koji se pohranjuju i njihove detaljne upotrebe. Kompromis na razini granularnosti podataka kako bi se smanjili troškovi pohrane.

Sažetak:

  • ETL stoji za izdvajanje, transformaciju i učitavanje.
  • ETL pruža metodu premještanja podataka iz različitih izvora u skladište podataka.
  • U prvom koraku ekstrakcije, podaci se iz izvornog sustava izdvajaju u scensko područje.
  • U koraku transformacije podaci izvučeni iz izvora čiste se i transformiraju.
  • Učitavanje podataka u ciljano skladište podataka zadnji je korak ETL postupka.