Top 25 ETL intervjua za ispitivanje & Odgovori

Anonim

Slijede često postavljana pitanja u intervjuima za svježe, kao i iskusne ETL testere i programere.

1) Što je ETL?

U arhitekturi skladištenja podataka, ETL je važna komponenta koja upravlja podacima za bilo koji poslovni proces. ETL je kratica za Izdvajanje, Transformacija i Učitavanje . Ekstrakt vrši postupak čitanja podataka iz baze podataka. Transform pretvara podatke u oblik koji bi mogao biti prikladan za izvještavanje i analizu. Dok load učitava postupak upisivanja podataka u ciljnu bazu podataka.

2) Objasnite što uključuje ETL testiranje?

ETL ispitivanje uključuje

  • Provjerite pretvaraju li se podaci ispravno u skladu s poslovnim zahtjevima
  • Provjerite jesu li projicirani podaci učitani u skladište podataka bez kršenja i gubitka podataka
  • Provjerite prijavljuje li ETL nevaljane podatke i zamjenjuje ih zadanim vrijednostima
  • Obavezno učitajte podatke u očekivanom vremenskom okviru kako biste poboljšali skalabilnost i performanse

3) Spomenite koje su vrste aplikacija za skladište podataka i koja je razlika između rudarenja podataka i skladištenja podataka?

Vrste aplikacija za pohranu podataka su

  • Obrada informacija
  • Analitička obrada
  • Data mining

Rudarstvo podataka može se definirati kao postupak izdvajanja skrivenih prediktivnih podataka iz velikih baza podataka i tumačenja podataka, dok skladištenje podataka može koristiti rudnik podataka za bržu analitičku obradu podataka. Skladištenje podataka postupak je objedinjavanja podataka iz više izvora u jedno zajedničko spremište

4) Koji su razni alati koji se koriste u ETL-u?

  • Tok odlučivanja Cognos
  • Oracle Warehouse Builder
  • Poslovni objekti XI
  • SAS poslovno skladište
  • SAS Enterprise ETL poslužitelj

5) Što je činjenica? Koje su vrste činjenica?

To je središnja komponenta višedimenzionalnog modela koji sadrži mjere koje treba analizirati. Činjenice su povezane s dimenzijama.

Vrste činjenica su

  • Aditivne činjenice
  • Poluaditivne činjenice
  • Činjenice bez aditiva

6) Objasnite što su kocke i OLAP kocke?

Kocke su jedinice za obradu podataka koje se sastoje od tablica činjenica i dimenzija iz skladišta podataka. Pruža višedimenzionalnu analizu.

OLAP je kratica za Online Analytics Processing, a OLAP kocka sprema velike podatke u više-dimenzionalnom obliku za potrebe izvještavanja. Sastoji se od činjenica koje se nazivaju mjerama kategoriziranim po dimenzijama.

7) Objasnite što je razina praćenja i koje su vrste?

Razina praćenja je količina podataka pohranjena u datotekama dnevnika. Razina praćenja može se klasificirati u dvije normalne i opsežne. Normalna razina detaljno objašnjava razinu praćenja, dok opširno objašnjava razine praćenja u svakom retku.

8) Objasnite što je zrno činjenice?

Zrnatost se može definirati kao razina na kojoj se čuvaju podaci o činjenici. Također je poznata kao granulacija činjenica

9) Objasnite što je shema činjenica bez činjenica i što je Mjere?

Tabela činjenica bez mjera poznata je kao Factless fact table. Može pregledati broj događaja koji se događaju. Na primjer, koristi se za bilježenje događaja kao što je broj zaposlenih u tvrtki.

Numerički podaci na temelju stupaca u tablici činjenica poznati su kao Mjere

10) Objasnite što je transformacija?

Transformacija je objekt spremišta koji generira, mijenja ili prosljeđuje podatke. Transformacija je dvije vrste Aktivna i Pasivna

11) Objasnite upotrebu pretvorbe pretraživanja?

Transformacija pretraživanja korisna je za

  • Dobivanje povezane vrijednosti iz tablice pomoću vrijednosti stupca
  • Ažurirajte tablicu dimenzija koja se polako mijenja
  • Provjerite postoje li zapisi u tablici

12) Objasnite što je particioniranje, heširanje i okruglo pregrađivanje?

Da bi se poboljšala izvedba, transakcije su podijeljene podjelom, to se naziva Particioniranje. Dijeljenje omogućuje Informatica poslužitelju stvaranje višestrukih veza s raznim izvorima

Vrste particija su

Round-Robin particioniranje:

  • Informatikom se podaci ravnomjerno raspoređuju po svim particijama
  • U svakoj particiji gdje je broj redaka za obradu približno jednak, primjenjuje se ovo dijeljenje

Hash particioniranje:

  • U svrhu particioniranja ključeva za grupiranje podataka među particijama, Informatica poslužitelj primjenjuje hash funkciju
  • Koristi se kada osigurava da trebaju biti osigurane grupe redaka s istim particijskim ključem na istoj particiji

13) Spomenite koja je prednost korištenja odredišnog adaptera DataReader?

Prednost upotrebe DataReader odredišnog adaptera je u tome što on popunjava ADO skup zapisa (sastoji se od zapisa i stupaca) u memoriji i izlaže podatke iz zadatka DataFlow primjenom sučelja DataReader, tako da druga aplikacija može trošiti podatke.

14) Korištenje SSIS-a (SQL Server Integration Service) koji su mogući načini ažuriranja tablice?

Za ažuriranje tablice pomoću SSIS-a mogući su načini:

  • Upotrijebite SQL naredbu
  • Koristite inscenacijski stol
  • Koristite predmemoriju
  • Upotrijebite skriptni zadatak
  • Koristite puno ime baze podataka za ažuriranje ako se koristi MSSQL

15) U slučaju da imate izvor za pretraživanje koji nije OLEDB (povezivanje objekata i ugrađivanje baze podataka), što biste učinili?

U slučaju da imate izvor koji nije OLEBD za pretraživanje, tada morate koristiti Cache za učitavanje podataka i korištenje kao izvor

16) U kojem slučaju koristite dinamičku i statičku predmemoriju u povezanim i nepovezanim transformacijama?

  • Dinamička predmemorija koristi se kada morate ažurirati matičnu tablicu i polako mijenjajuće dimenzije (SCD) tip 1
  • Za ravne datoteke koristi se statička predmemorija

17) Objasnite koje su razlike između nepovezanog i povezanog pretraživanja?

Povezano pretraživanje

Nepovezano traženje

  • Povezano traženje sudjeluje u mapiranju

- Koristi se kada se koristi funkcija pretraživanja umjesto transformacije izraza tijekom mapiranja

  • Može se vratiti više vrijednosti

- Vraća samo jedan izlazni port

  • Može se povezati s drugom transformacijom i vraća vrijednost
  • Druga transformacija ne može se povezati
  • Za povezano pretraživanje se može koristiti statička ili dinamička predmemorija
  • Povezano kao samo statička predmemorija
  • Povezani pregled podržava zadane vrijednosti koje definiraju korisnici
  • Nepovezano traženje ne podržava zadane vrijednosti koje definiraju korisnici
  • U Connected Lookup višestruki se stupac može vratiti iz istog retka ili umetnuti u dinamičku predmemoriju pretraživanja
  • Nepovezano pretraživanje označava jedan povratni port i vraća po jedan stupac iz svakog retka

18) Objasnite što je prikaz izvora podataka?

Pogled izvora podataka omogućuje definiranje relacijske sheme koja će se koristiti u bazama podataka usluga za analizu. Umjesto izravno iz objekata izvora podataka, dimenzije i kocke kreiraju se iz pogleda izvora podataka.

19) Objasnite koja je razlika između OLAP alata i ETL alata?

Razlika između ETL i OLAP alata je u tome

ETL alat namijenjen je izdvajanju podataka iz naslijeđenih sustava i učitavanju u određenu bazu podataka nekim postupkom čišćenja podataka.

Primjer: Faza podataka, Informatica itd.

Iako je OLAP namijenjen izvješćivanju u OLAP podacima dostupnim u višesmjernom modelu.

Primjer: Poslovni objekti, Cognos itd.

20) Kako možete izvući SAP podatke pomoću Informatice?

  • Pomoću opcije power connect izvlačite SAP podatke pomoću informatike
  • Instalirajte i konfigurirajte alat PowerConnect
  • Uvezite izvor u Source Analyzer. Između Informatice i SAP Powerconnecta djeluju kao prolaz. Sljedeći je korak generiranje ABAP koda za mapiranje, a tada samo informatika može izvući podatke iz SAP-a
  • Za povezivanje i uvoz izvora iz vanjskih sustava koristi se Power Connect

21) Spomenite koja je razlika između Power Mart-a i Power Centra?

Centar napajanja

Snaga Mart

  • Pretpostavimo da obradimo ogromnu količinu podataka
  • Pretpostavimo da obradimo malu količinu podataka
  • Podržava ERP izvore poput SAP-a, soft softvera itd.
  • Ne podržava ERP izvore
  • Podržava lokalno i globalno spremište
  • Podržava lokalno spremište
  • Pretvara lokalno u globalno spremište
  • Nema specifikaciju za pretvaranje lokalnog u globalno spremište

22) Objasnite što je scensko područje i koja je svrha tog scenskog prostora?

Koraci podataka su područje u kojem podatke držite privremenima na poslužitelju skladišta podataka. Koraci podataka uključuju sljedeće korake

  • Izdvajanje i transformacija podataka (restrukturiranje) izvornih podataka
  • Transformacija podataka (čišćenje podataka, transformacija vrijednosti)
  • Dodjeljivanje zamjenskih ključeva

23) Što je shema autobusa?

Za različite poslovne procese radi identificiranja zajedničkih dimenzija koristi se BUS shema. Dolazi s usklađenim dimenzijama zajedno sa standardiziranom definicijom informacija

24) Objasnite što je čišćenje podataka?

Čišćenje podataka postupak je brisanja podataka iz skladišta podataka. Briše neželjene podatke poput redova s ​​null vrijednostima ili dodatnim razmacima.

25) Objasnite što su objekti sheme?

Objekti sheme su logična struktura koja se izravno odnosi na podatke baze podataka. Objekti sheme uključuju tablice, poglede, sinonime sekvence, indekse, klastere, funkcionalne pakete i veze baze podataka

26) Objasnite ove pojmove Session, Worklet, Mapplet i Workflow?

  • Mapplet: Uređuje ili stvara setove transformacije
  • Worklet: Predstavlja određeni skup zadataka
  • Tok rada: To je skup uputa koje poslužitelju govore kako da izvršava zadatke
  • Sjednica: To je skup parametara koji poslužitelju govori kako premjestiti podatke iz izvora u cilj

Besplatno preuzimanje PDF-a: Pitanja i odgovori za ispitivanje ETL-a