Koncepti skladišta podataka
Osnovni koncept skladišta podataka jest olakšati tvrtki jedinstvenu verziju istine za donošenje odluka i predviđanje. Skladište podataka je informacijski sustav koji sadrži povijesne i komutativne podatke iz jednog ili više izvora. Koncepti skladišta podataka pojednostavljuju postupak izvještavanja i analize organizacija.
Karakteristike skladišta podataka
Koncepti skladišta podataka imaju sljedeće značajke:
- Predmetno orijentirano
- Integriran
- Vremenska varijanta
- Nehlapljiv
Predmetno orijentirano
Skladište podataka orijentirano je na predmet jer nudi informacije o temi, umjesto o tijeku poslovanja tvrtke. Ti predmeti mogu biti prodaja, marketing, distribucija itd.
Skladište podataka nikada se ne fokusira na tekuće operacije. Umjesto toga, naglasak je stavio na modeliranje i analizu podataka za donošenje odluka . Također pruža jednostavan i sažet pogled na određenu temu izuzimajući podatke koji nisu korisni kao podrška procesu odlučivanja.
Integriran
U Skladištu podataka integracija znači uspostavljanje zajedničke mjerne jedinice za sve slične podatke iz različite baze podataka. Podaci se također trebaju pohraniti u Datawarehouse na zajednički i univerzalno prihvatljiv način.
Skladište podataka razvija se integriranjem podataka iz različitih izvora poput glavnog računala, relacijskih baza podataka, ravnih datoteka itd. Štoviše, ono mora zadržati dosljedne konvencije imenovanja, format i kodiranje.
Ova integracija pomaže u učinkovitoj analizi podataka. Treba osigurati dosljednost u konvencijama imenovanja, mjerama atributa, strukturi kodiranja itd. Razmotrimo sljedeći primjer:
U gornjem primjeru postoje tri različite aplikacije s oznakama A, B i C. Podaci pohranjeni u tim aplikacijama su spol, datum i ravnoteža. Međutim, podaci svake aplikacije pohranjuju se na drugačiji način.
- U aplikaciji Polje spola pohranjuje logičke vrijednosti poput M ili F
- U polju primjene B polno polje je numerička vrijednost,
- U aplikaciji C, polje spola pohranjeno u obliku vrijednosti znaka.
- Isti je slučaj s Datumom i stanjem
Međutim, nakon transformacije i čišćenja svi se ti podaci pohranjuju u zajedničkom formatu u skladište podataka.
Vremenska varijanta
Vremenski horizont za skladište podataka prilično je opsežan u usporedbi s operativnim sustavima. Podaci prikupljeni u skladištu podataka prepoznaju se u određenom razdoblju i nude informacije s povijesne točke gledišta. Sadrži element vremena, eksplicitno ili implicitno.
Jedno od takvih mjesta gdje je varijanta vremena prikaza podataka Datawarehousea u strukturi ključa zapisa. Svaki primarni ključ sadržan u DW-u trebao bi imati implicitno ili eksplicitno element vremena. Poput dana, tjedna, mjeseca itd.
Sljedeći aspekt vremenske varijacije je da se podaci nakon umetanja u skladište ne mogu ažurirati ili promijeniti.
Nehlapljiv
Skladište podataka također je hlapljivo, što znači da se prethodni podaci ne brišu kada se u njega unose novi podaci.
Podaci su samo za čitanje i povremeno se osvježavaju. To također pomaže analizirati povijesne podatke i razumjeti što se i kada dogodilo. Ne zahtijeva mehanizme procesa transakcija, oporavka i kontrole istodobnosti.
Aktivnosti poput brisanja, ažuriranja i umetanja koje se izvode u operativnom aplikacijskom okruženju izostavljene su u okruženju skladišta podataka. Samo su dvije vrste podatkovnih operacija izvedene u Data Warehousingu
- Učitavanje podataka
- Pristup podacima
Evo nekoliko glavnih razlika između aplikacije i skladišta podataka
Operativna primjena | Skladište podataka |
Složeni program mora biti kodiran kako bi se osiguralo da procesi nadogradnje podataka održavaju visoku cjelovitost konačnog proizvoda. | Ova vrsta problema ne događa se jer se ne vrši ažuriranje podataka. |
Podaci se postavljaju u normalizirani oblik kako bi se osigurala minimalna suvišnost. | Podaci se ne pohranjuju u normaliziranom obliku. |
Tehnologija potrebna za podršku problemima transakcija, oporavka podataka, vraćanja i rješavanja jer je zastoj prilično složen. | Nudi relativnu jednostavnost u tehnologiji. |
Arhitektura skladišta podataka
Arhitektura skladišta podataka složena je jer je informacijski sustav koji sadrži povijesne i komutativne podatke iz više izvora. Postoje 3 pristupa za izgradnju slojeva skladišta podataka: jednoslojni, dvorazinski i troslojni. Ova 3-slojna arhitektura Data Warehouse-a objašnjena je na sljedeći način.
Jednoslojna arhitektura
Cilj jednog sloja je smanjiti količinu pohranjenih podataka. Cilj je ukloniti višak podataka. Ova se arhitektura u praksi ne koristi često.
Dvorazinska arhitektura
Dvoslojna arhitektura jedan je od slojeva skladišta podataka koji razdvaja fizički dostupne izvore i skladište podataka. Ova se arhitektura ne može proširiti, a također ne podržava velik broj krajnjih korisnika. Također ima problema s povezivanjem zbog mrežnih ograničenja.
Arhitektura skladišta podataka u tri razine
Ovo je najčešće korištena Arhitektura skladišta podataka.
Sastoji se od gornjeg, srednjeg i donjeg sloja.
- Donji nivo: Baza podataka poslužitelja Datawarehousea kao donja razina. To je obično relacijski sustav baza podataka. Podaci se čiste, transformiraju i učitavaju u ovaj sloj pomoću pozadinskih alata.
- Srednja razina: Srednja razina u podatkovnom skladištu je OLAP poslužitelj koji je implementiran koristeći ROLAP ili MOLAP model. Za korisnika, ova razina aplikacije predstavlja apstraktni prikaz baze podataka. Ovaj sloj također djeluje kao posrednik između krajnjeg korisnika i baze podataka.
- Vrhunska razina: gornja razina je prednji klijentski sloj. Gornja razina su alati i API koje povezujete i vadite podatke iz skladišta podataka. To bi mogli biti alati za upite, alati za izvještavanje, alati za upravljane upite, alati za analizu i alati za rudarenje podataka.
Komponente skladišta podataka
Naučit ćemo o komponentama Datawarehousea i arhitekturi skladišta podataka sa dijagramom kako je prikazano u nastavku:
Skladište podataka temelji se na RDBMS poslužitelju koji je središnje spremište informacija okruženo nekim ključnim komponentama Skladištenja podataka kako bi cjelokupno okruženje učinilo funkcionalnim, upravljivim i pristupačnim.
Uglavnom postoji pet komponenata skladišta podataka:
Baza podataka skladišta podataka
Središnja baza podataka temelj je okruženja za skladištenje podataka. Ova baza podataka implementirana je na RDBMS tehnologiji. Iako je ova vrsta implementacije ograničena činjenicom da je tradicionalni RDBMS sustav optimiziran za transakcijsku obradu baze podataka, a ne za skladištenje podataka. Na primjer, ad-hoc upiti, spajanja s više tablica, agregati zahtijevaju resurse i usporavaju izvedbu.
Stoga se koriste alternativni pristupi bazi podataka kako su navedeni u nastavku -
- U skladištu podataka relacijske baze podataka raspoređuju se paralelno kako bi se omogućila skalabilnost. Paralelne relacijske baze podataka također omogućuju zajedničku memoriju ili zajednički model ništa na raznim višeprocesorskim konfiguracijama ili masivno paralelnim procesorima.
- Nove indeksne strukture koriste se za zaobilaženje skeniranja relacijskih tablica i poboljšanje brzine.
- Korištenje višedimenzionalne baze podataka (MDDB) za prevladavanje svih ograničenja koja su postavljena zbog relacijskih modela skladišta podataka. Primjer: Essbase iz Oraclea.
Alati za pronalaženje, prikupljanje, čišćenje i transformaciju (ETL)
Alati za pronalaženje podataka, transformaciju i migraciju koriste se za obavljanje svih pretvorbi, sažimanja i svih promjena potrebnih za pretvaranje podataka u jedinstveni format u skladištu podataka. Oni se nazivaju i alatima za izdvajanje, transformaciju i učitavanje (ETL).
Njihova funkcionalnost uključuje:
- Anonimizirajte podatke prema regulatornim odredbama.
- Uklanjanje neželjenih podataka iz operativnih baza podataka iz učitavanja u skladište podataka.
- Pretražite i zamijenite uobičajena imena i definicije podataka koji dolaze iz različitih izvora.
- Izračunavanje sažetaka i izvedenih podataka
- U slučaju da nedostaju podaci, popunite ih zadanim postavkama.
- Ponovljeni podaci bez dupliciranja koji dolaze iz više izvora podataka.
Ovi alati za izdvajanje, transformaciju i učitavanje mogu generirati cron poslove, pozadinske poslove, programe Cobol, skripte ljuske itd. Koji redovito ažuriraju podatke u skladištu podataka. Ovi su alati također korisni za održavanje metapodataka.
Ovi se ETL alati moraju nositi s izazovima heterogenosti baze podataka i podataka.
Metapodaci
Ime Meta Data sugerira neke tehnološke koncepte skladištenja podataka na visokoj razini. Međutim, sasvim je jednostavno. Metapodaci su podaci o podacima koji definiraju skladište podataka. Koristi se za izgradnju, održavanje i upravljanje skladištem podataka.
U Arhitekturi skladišta podataka, metapodaci igraju važnu ulogu jer određuju izvor, upotrebu, vrijednosti i značajke podataka skladišta podataka. Također definira kako se podaci mogu mijenjati i obrađivati. Usko je povezan sa skladištem podataka.
Na primjer, redak u prodajnoj bazi podataka može sadržavati:
4030 KJ732 299.90
Ovo su besmisleni podaci dok se ne posavjetujemo s Metom koja nam kaže da jest
- Broj modela: 4030
- ID prodajnog agenta: KJ732
- Ukupan iznos prodaje od 299,90 USD
Stoga su Meta podaci ključni sastojci u transformaciji podataka u znanje.
Metapodaci pomažu u odgovoru na sljedeća pitanja
- Koje tablice, atribute i ključeve sadrži Skladište podataka?
- Odakle podaci?
- Koliko se puta podaci ponovno učitavaju?
- Koje su transformacije primijenjene kod čišćenja?
Metapodaci se mogu klasificirati u sljedeće kategorije:
- Tehnički meta podaci : Ova vrsta metapodataka sadrži informacije o skladištu koje koriste dizajneri i administratori skladišta podataka.
- Poslovni meta podaci: Ova vrsta metapodataka sadrži detalje koji krajnjim korisnicima pružaju jednostavan način za razumijevanje podataka pohranjenih u skladištu podataka.
Alati za upite
Jedan od primarnih ciljeva skladištenja podataka je pružanje informacija tvrtkama za donošenje strateških odluka. Alati za upite omogućuju korisnicima interakciju sa sustavom skladišta podataka.
Ovi alati mogu se podijeliti u četiri različite kategorije:
- Alati za upite i izvještavanje
- Alati za razvoj aplikacija
- Alati za rudarenje podacima
- OLAP alati
1. Alati za upite i izvještavanje:
Alati za upite i izvještavanje mogu se dalje podijeliti na
- Alati za izvještavanje
- Alati za upravljane upite
Alati za izvještavanje:
Alati za izvještavanje mogu se dalje podijeliti na alate za izvještavanje o proizvodnji i program za pisanje izvješća na radnoj površini.
- Pisci izvještaja: Ova vrsta alata za izvještavanje alati su namijenjeni krajnjim korisnicima za njihovu analizu.
- Izvještavanje o proizvodnji: Ova vrsta alata omogućuje organizacijama da generiraju redovita operativna izvješća. Također podržava velike količine skupnih poslova poput ispisa i izračunavanja. Neki od popularnih alata za izvještavanje su Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Alati za upravljane upite:
Ovakva vrsta alata za pristup krajnjim korisnicima pomaže u rješavanju problema u bazi podataka i SQL-u i strukturi baze podataka umetanjem meta-sloja između korisnika i baze podataka.
2. Alati za razvoj aplikacija:
Ponekad ugrađeni grafički i analitički alati ne zadovoljavaju analitičke potrebe organizacije. U takvim se slučajevima prilagođena izvješća razvijaju pomoću alata za razvoj aplikacija.
3. Alati za rudarenje podacima:
Iskopavanje podataka postupak je otkrivanja značajnih novih korelacija, obrazaca i trendova iskopavanjem velike količine podataka. Alati za rudarstvo podataka koriste se kako bi se ovaj postupak učinio automatskim.
4. OLAP alati:
Ovi se alati temelje na konceptima višedimenzionalne baze podataka. Omogućuje korisnicima analizu podataka koristeći složene i složene višedimenzionalne prikaze.
Skladište podataka Arhitektura autobusa
Sabirnica podataka skladišta određuje protok podataka u vašem skladištu. Protok podataka u skladištu podataka može se kategorizirati kao Utok, Uzlaz, Odljev, Odljev i Meta tok.
Prilikom dizajniranja podatkovne sabirnice, treba uzeti u obzir zajedničke dimenzije i činjenice na svim podatkovnim poljima.
Podatkovne oznake
Data mart je pristupni sloj koji se koristi za dostavljanje podataka do korisnika. Predstavljen je kao opcija za veliko skladište podataka jer mu je potrebno manje vremena i novca. Međutim, ne postoji standardna definicija podataka koji se razlikuju od osobe do osobe.
Jednostavnom riječju Data mart je podružnica skladišta podataka. Data mart koristi se za podjelu podataka koja se kreira za određenu skupinu korisnika.
Martovi podataka mogu se kreirati u istoj bazi podataka kao Datawarehouse ili fizički odvojena baza podataka.
Najbolje prakse u arhitekturi skladišta podataka
Da biste dizajnirali arhitekturu skladišta podataka, morate slijediti dolje navedene najbolje prakse:
- Koristite modele skladišta podataka koji su optimizirani za pronalaženje podataka, a to može biti dimenzionalni način, denormalizirani ili hibridni pristup.
- Odaberite odgovarajući pristup dizajniranju kao pristup odozgo prema dolje i odozdo prema gore u Skladištu podataka
- Treba osigurati da se podaci obrađuju brzo i točno. Istodobno, trebali biste zauzeti pristup koji objedinjuje podatke u jednu verziju istine.
- Pažljivo osmislite postupak prikupljanja i čišćenja podataka za skladište podataka.
- Dizajnirajte MetaData arhitekturu koja omogućuje dijeljenje metapodataka između komponenata Data Warehouse-a
- Razmislite o primjeni ODS modela kada je potreba za pronalaženjem podataka pri dnu piramide apstrakcije podataka ili kada je potrebno pristupiti više operativnih izvora.
- Treba biti siguran da je model podataka integriran, a ne samo konsolidiran. U tom biste slučaju trebali razmotriti model podataka 3NF. Također je idealan za nabavu ETL-a i alata za čišćenje podataka
Sažetak:
- Skladište podataka je informacijski sustav koji sadrži povijesne i komutativne podatke iz jednog ili više izvora. Ti izvori mogu biti tradicionalno skladište podataka, skladište podataka u oblaku ili virtualno skladište podataka.
- Skladište podataka orijentirano je prema subjektu jer nudi informacije o subjektu, umjesto o tekućem radu organizacije.
- U Warehouseu podataka integracija znači uspostavljanje zajedničke jedinice mjere za sve slične podatke iz različitih baza podataka
- Skladište podataka također je hlapljivo, što znači da se prethodni podaci ne brišu kada se u njega unose novi podaci.
- Datawarehouse je vremenska varijanta jer podaci u DW-u imaju visok rok trajanja.
- Arhitektura skladišta podataka uglavnom ima 5 komponenata: 1) Baza podataka 2) ETL alati 3) Meta podaci 4) Alati za upite 5) DataMarts
- Ovo su četiri glavne kategorije alata za upite 1. Upiti i izvještavanje, alati 2. Alati za razvoj aplikacija, 3. Alati za rudarenje podacima 4. OLAP alati
- Alati za izvor podataka, transformaciju i migraciju koriste se za obavljanje svih pretvorbi i sažimanja.
- U Arhitekturi skladišta podataka, metapodaci igraju važnu ulogu jer određuju izvor, upotrebu, vrijednosti i značajke podataka skladišta podataka.