Slijede često postavljana pitanja u intervjuima za svježe, kao i iskusne ETL testere i programere.
1) Što je ETL?
U arhitekturi skladištenja podataka, ETL je važna komponenta koja upravlja podacima za bilo koji poslovni proces. ETL je kratica za Izdvajanje, Transformacija i Učitavanje . Ekstrakt vrši postupak čitanja podataka iz baze podataka. Transform pretvara podatke u oblik koji bi mogao biti prikladan za izvještavanje i analizu. Dok load učitava postupak upisivanja podataka u ciljnu bazu podataka.
2) Objasnite što uključuje ETL testiranje?
ETL ispitivanje uključuje
- Provjerite pretvaraju li se podaci ispravno u skladu s poslovnim zahtjevima
- Provjerite jesu li projicirani podaci učitani u skladište podataka bez kršenja i gubitka podataka
- Provjerite prijavljuje li ETL nevaljane podatke i zamjenjuje ih zadanim vrijednostima
- Obavezno učitajte podatke u očekivanom vremenskom okviru kako biste poboljšali skalabilnost i performanse
3) Spomenite koje su vrste aplikacija za skladište podataka i koja je razlika između rudarenja podataka i skladištenja podataka?
Vrste aplikacija za pohranu podataka su
- Obrada informacija
- Analitička obrada
- Data mining
Rudarstvo podataka može se definirati kao postupak izdvajanja skrivenih prediktivnih podataka iz velikih baza podataka i tumačenja podataka, dok skladištenje podataka može koristiti rudnik podataka za bržu analitičku obradu podataka. Skladištenje podataka postupak je objedinjavanja podataka iz više izvora u jedno zajedničko spremište
4) Koji su razni alati koji se koriste u ETL-u?
- Tok odlučivanja Cognos
- Oracle Warehouse Builder
- Poslovni objekti XI
- SAS poslovno skladište
- SAS Enterprise ETL poslužitelj
5) Što je činjenica? Koje su vrste činjenica?
To je središnja komponenta višedimenzionalnog modela koji sadrži mjere koje treba analizirati. Činjenice su povezane s dimenzijama.
Vrste činjenica su
- Aditivne činjenice
- Poluaditivne činjenice
- Činjenice bez aditiva
6) Objasnite što su kocke i OLAP kocke?
Kocke su jedinice za obradu podataka koje se sastoje od tablica činjenica i dimenzija iz skladišta podataka. Pruža višedimenzionalnu analizu.
OLAP je kratica za Online Analytics Processing, a OLAP kocka sprema velike podatke u više-dimenzionalnom obliku za potrebe izvještavanja. Sastoji se od činjenica koje se nazivaju mjerama kategoriziranim po dimenzijama.
7) Objasnite što je razina praćenja i koje su vrste?
Razina praćenja je količina podataka pohranjena u datotekama dnevnika. Razina praćenja može se klasificirati u dvije normalne i opsežne. Normalna razina detaljno objašnjava razinu praćenja, dok opširno objašnjava razine praćenja u svakom retku.
8) Objasnite što je zrno činjenice?
Zrnatost se može definirati kao razina na kojoj se čuvaju podaci o činjenici. Također je poznata kao granulacija činjenica
9) Objasnite što je shema činjenica bez činjenica i što je Mjere?
Tabela činjenica bez mjera poznata je kao Factless fact table. Može pregledati broj događaja koji se događaju. Na primjer, koristi se za bilježenje događaja kao što je broj zaposlenih u tvrtki.
Numerički podaci na temelju stupaca u tablici činjenica poznati su kao Mjere
10) Objasnite što je transformacija?
Transformacija je objekt spremišta koji generira, mijenja ili prosljeđuje podatke. Transformacija je dvije vrste Aktivna i Pasivna
11) Objasnite upotrebu pretvorbe pretraživanja?
Transformacija pretraživanja korisna je za
- Dobivanje povezane vrijednosti iz tablice pomoću vrijednosti stupca
- Ažurirajte tablicu dimenzija koja se polako mijenja
- Provjerite postoje li zapisi u tablici
12) Objasnite što je particioniranje, heširanje i okruglo pregrađivanje?
Da bi se poboljšala izvedba, transakcije su podijeljene podjelom, to se naziva Particioniranje. Dijeljenje omogućuje Informatica poslužitelju stvaranje višestrukih veza s raznim izvorima
Vrste particija su
Round-Robin particioniranje:
- Informatikom se podaci ravnomjerno raspoređuju po svim particijama
- U svakoj particiji gdje je broj redaka za obradu približno jednak, primjenjuje se ovo dijeljenje
Hash particioniranje:
- U svrhu particioniranja ključeva za grupiranje podataka među particijama, Informatica poslužitelj primjenjuje hash funkciju
- Koristi se kada osigurava da trebaju biti osigurane grupe redaka s istim particijskim ključem na istoj particiji
13) Spomenite koja je prednost korištenja odredišnog adaptera DataReader?
Prednost upotrebe DataReader odredišnog adaptera je u tome što on popunjava ADO skup zapisa (sastoji se od zapisa i stupaca) u memoriji i izlaže podatke iz zadatka DataFlow primjenom sučelja DataReader, tako da druga aplikacija može trošiti podatke.
14) Korištenje SSIS-a (SQL Server Integration Service) koji su mogući načini ažuriranja tablice?
Za ažuriranje tablice pomoću SSIS-a mogući su načini:
- Upotrijebite SQL naredbu
- Koristite inscenacijski stol
- Koristite predmemoriju
- Upotrijebite skriptni zadatak
- Koristite puno ime baze podataka za ažuriranje ako se koristi MSSQL
15) U slučaju da imate izvor za pretraživanje koji nije OLEDB (povezivanje objekata i ugrađivanje baze podataka), što biste učinili?
U slučaju da imate izvor koji nije OLEBD za pretraživanje, tada morate koristiti Cache za učitavanje podataka i korištenje kao izvor
16) U kojem slučaju koristite dinamičku i statičku predmemoriju u povezanim i nepovezanim transformacijama?
- Dinamička predmemorija koristi se kada morate ažurirati matičnu tablicu i polako mijenjajuće dimenzije (SCD) tip 1
- Za ravne datoteke koristi se statička predmemorija
17) Objasnite koje su razlike između nepovezanog i povezanog pretraživanja?
Povezano pretraživanje |
Nepovezano traženje |
|
- Koristi se kada se koristi funkcija pretraživanja umjesto transformacije izraza tijekom mapiranja |
|
- Vraća samo jedan izlazni port |
|
|
|
|
|
|
|
|
18) Objasnite što je prikaz izvora podataka?
Pogled izvora podataka omogućuje definiranje relacijske sheme koja će se koristiti u bazama podataka usluga za analizu. Umjesto izravno iz objekata izvora podataka, dimenzije i kocke kreiraju se iz pogleda izvora podataka.
19) Objasnite koja je razlika između OLAP alata i ETL alata?
Razlika između ETL i OLAP alata je u tome
ETL alat namijenjen je izdvajanju podataka iz naslijeđenih sustava i učitavanju u određenu bazu podataka nekim postupkom čišćenja podataka.
Primjer: Faza podataka, Informatica itd.
Iako je OLAP namijenjen izvješćivanju u OLAP podacima dostupnim u višesmjernom modelu.
Primjer: Poslovni objekti, Cognos itd.
20) Kako možete izvući SAP podatke pomoću Informatice?
- Pomoću opcije power connect izvlačite SAP podatke pomoću informatike
- Instalirajte i konfigurirajte alat PowerConnect
- Uvezite izvor u Source Analyzer. Između Informatice i SAP Powerconnecta djeluju kao prolaz. Sljedeći je korak generiranje ABAP koda za mapiranje, a tada samo informatika može izvući podatke iz SAP-a
- Za povezivanje i uvoz izvora iz vanjskih sustava koristi se Power Connect
21) Spomenite koja je razlika između Power Mart-a i Power Centra?
Centar napajanja |
Snaga Mart |
|
|
|
|
|
|
|
|
22) Objasnite što je scensko područje i koja je svrha tog scenskog prostora?
Koraci podataka su područje u kojem podatke držite privremenima na poslužitelju skladišta podataka. Koraci podataka uključuju sljedeće korake
- Izdvajanje i transformacija podataka (restrukturiranje) izvornih podataka
- Transformacija podataka (čišćenje podataka, transformacija vrijednosti)
- Dodjeljivanje zamjenskih ključeva
23) Što je shema autobusa?
Za različite poslovne procese radi identificiranja zajedničkih dimenzija koristi se BUS shema. Dolazi s usklađenim dimenzijama zajedno sa standardiziranom definicijom informacija
24) Objasnite što je čišćenje podataka?
Čišćenje podataka postupak je brisanja podataka iz skladišta podataka. Briše neželjene podatke poput redova s null vrijednostima ili dodatnim razmacima.
25) Objasnite što su objekti sheme?
Objekti sheme su logična struktura koja se izravno odnosi na podatke baze podataka. Objekti sheme uključuju tablice, poglede, sinonime sekvence, indekse, klastere, funkcionalne pakete i veze baze podataka
26) Objasnite ove pojmove Session, Worklet, Mapplet i Workflow?
- Mapplet: Uređuje ili stvara setove transformacije
- Worklet: Predstavlja određeni skup zadataka
- Tok rada: To je skup uputa koje poslužitelju govore kako da izvršava zadatke
- Sjednica: To je skup parametara koji poslužitelju govori kako premjestiti podatke iz izvora u cilj
Besplatno preuzimanje PDF-a: Pitanja i odgovori za ispitivanje ETL-a