Top 62 pitanja za intervju s inženjerom podataka & Odgovori

Evo često postavljanih pitanja za intervju inženjera podataka kako za svježe tako i za iskusne kandidate da bi dobili pravi posao.

1) Objasnite inženjering podataka.

Podatkovni inženjering je izraz koji se koristi u velikim podacima. Fokusira se na primjenu prikupljanja podataka i istraživanja. Podaci generirani iz različitih izvora samo su sirovi podaci. Data inženjering pomaže pretvoriti ove sirove podatke u korisne informacije.

2) Što je modeliranje podataka?

Modeliranje podataka metoda je dokumentiranja složenog softverskog dizajna kao dijagrama tako da ga svatko može lako razumjeti. To je konceptualni prikaz podatkovnih objekata koji su povezani između različitih podatkovnih objekata i pravila.

3) Navedite razne vrste shema dizajna u modeliranju podataka

U modeliranju podataka postoje uglavnom dvije vrste shema: 1) shema zvijezda i 2) shema pahuljica.

4) Razlikovati strukturirane i nestrukturirane podatke

Slijedi razlika između strukturiranih i nestrukturiranih podataka:

Parametar	Strukturirani podaci	Nestrukturirani podaci
Skladištenje	DBMS	Neupravljane strukture datoteka
Standard	ADO.net, ODBC i SQL	STMP, XML, CSV i SMS
Alat za integraciju	ELT (izdvajanje, transformacija, učitavanje)	Ručni unos podataka ili skupna obrada koja uključuje kodove
skaliranje	Skaliranje sheme je teško	Skaliranje je vrlo jednostavno.

5) Objasnite sve komponente Hadoop aplikacije

Slijede komponente komponente Hadoop:

Hadoop Common: To je uobičajeni skup uslužnih programa i knjižnica koje koristi Hadoop.
HDFS: Ova Hadoop aplikacija odnosi se na datotečni sustav u kojem su pohranjeni Hadoop podaci. To je distribuirani datotečni sustav koji ima veliku propusnost.
Hadoop MapReduce: Temelji se na algoritmu za pružanje velike obrade podataka.
Hadoop PREĐA: Koristi se za upravljanje resursima unutar klastera Hadoop. Također se može koristiti za planiranje zadataka za korisnike.

6) Što je NameNode?

To je središnje mjesto HDFS-a. Pohranjuje podatke HDFS-a i prati razne datoteke u klasterima. Ovdje se stvarni podaci ne pohranjuju. Podaci se pohranjuju u DataNodes.

7) Definirajte Hadoop streaming

To je uslužni program koji omogućuje stvaranje mape i smanjuje radna mjesta i predaje ih određenom klasteru.

8) Koji je puni oblik HDFS-a?

HDFS je kratica od Hadoop Distributed File System.

9) U HDFS definirajte blok i blok skener

Blokovi su najmanja jedinica podatkovne datoteke. Hadoop automatski dijeli ogromne datoteke na male komade.

Block Scanner provjerava popis blokova koji su prikazani na DataNodeu.

10) Koji su koraci koji se događaju kada Block Scanner otkrije oštećeni podatkovni blok?

Slijede koraci koji se javljaju kada Block Scanner pronađe oštećeni podatkovni blok:

1) Prije svega, kada Block Scanner pronađe oštećeni podatkovni blok, DataNode izvještava NameNode

2) NameNode započnite postupak stvaranja nove replike pomoću replike oštećenog bloka.

3) Broj replikacija ispravnih replika pokušava se podudarati s faktorom replikacije. Ako je pronađeno podudaranje oštećeni blok podataka neće se izbrisati.

11) Nazovite dvije poruke koje NameNode dobiva od DataNode?

Dvije su poruke koje NameNode dobiva od DataNode. Oni su 1) Izvještaj o blokadi i 2) Otkucaji srca.

12) Navesti razne XML konfiguracijske datoteke u Hadoopu?

U Hadoopu postoji pet XML konfiguracijskih datoteka:

Mapred-stranica
Jezgro stranice
HDFS-mjesto
Mjesto pređe

13) Koja su četiri V-a za velike podatke?

Četiri V-a za velike podatke su:

Brzina
Raznolikost
Volumen
Istinitost

14) Objasnite značajke Hadoopa

Važne značajke Hadoopa su:

To je okvir otvorenog koda koji je dostupan besplatnom programu.
Hadoop je kompatibilan s mnogim vrstama hardvera i jednostavan pristup novom hardveru unutar određenog čvora.
Hadoop podržava bržu distribuciju obrade podataka.
Pohranjuje podatke u klaster, koji je neovisan o ostalim operacijama.
Hadoop omogućuje stvaranje 3 replike za svaki blok s različitim čvorovima.

15) Objasnite glavne metode reduktora

setup (): Koristi se za konfiguriranje parametara poput veličine ulaznih podataka i distribuirane predmemorije.
cleanup (): Ova metoda koristi se za čišćenje privremenih datoteka.
reduce (): To je srce reduktora koje se poziva jednom po tipki s pripadajućim smanjenim zadatkom

16) Koja je kratica od COSHH?

Skraćenica od COSHH je Raspored zasnovan na klasifikaciji i optimizaciji za heterogene Hadoop sustave.

17) Objasnite shemu zvijezda

Shema zvijezda ili shema spajanja zvijezda najjednostavnija je vrsta sheme skladišta podataka. Poznata je kao shema zvijezda jer je po strukturi poput zvijezde. U shemi Zvijezda središte zvijezde može imati jednu tablicu činjenica i više pridruženih tablica dimenzija. Ova se shema koristi za upite velikih skupova podataka.

18) Kako primijeniti rješenje za velike podatke?

Slijedite sljedeće korake kako biste primijenili rješenje za velike podatke.

1) Integrirajte podatke koristeći izvore podataka kao što su RDBMS, SAP, MySQL, Salesforce

2) Pohranite podatke izvučene u bilo NoSQL bazu podataka ili HDFS.

3) Primijenite rješenje za velike podatke koristeći okvire za obradu poput Pig, Spark i MapReduce.

19) Objasnite FSCK

Provjera datotečnog sustava ili FSCK naredba je koju koristi HDFS. Naredba FSCK koristi se za provjeru nedosljednosti i problema u datoteci.

20) Objasnite shemu pahuljica

Shema pahuljica proširenje je sheme zvijezda i dodaje joj dodatne dimenzije. Takozvana je pahuljica jer njezin dijagram izgleda poput pahuljice. Tablice dimenzija su normalizirane, što dijeli podatke u dodatne tablice.

21) Razlikovati shemu zvijezda i pahuljica

Zvijezda	Shema SnowFlake
Hijerarhije dimenzija pohranjene su u dimenzionalnoj tablici.	Svaka hijerarhija pohranjena je u zasebne tablice.
Šanse za suvišnost podataka su velike	Šanse za suvišnost podataka su malene.
Ima vrlo jednostavan DB dizajn	Ima složen DB dizajn
Omogućite brži način obrade kockica	Obrada kocke je spora zbog složenog spajanja.

22) Objasnite sustav distribuiranih datoteka Hadoop

Hadoop radi s skalabilnim distribuiranim sustavima datoteka poput S3, HFTP FS, FS i HDFS. Distribuirani sustav datoteka Hadoop izrađen je na Google sustavu datoteka. Ovaj sustav datoteka dizajniran je na način da se lako može pokretati na velikom klasteru računalnog sustava.

23) Objasnite glavne odgovornosti inženjera podataka

Inženjeri podataka imaju mnogo odgovornosti. Oni upravljaju izvornim sustavom podataka. Inženjeri podataka pojednostavljuju složenu strukturu podataka i sprječavaju redukciju podataka. Mnogo puta pružaju i ELT i transformaciju podataka.

24) Koji je puni oblik PREDJE?

Puni je oblik YARN-a još jedan pregovarač o resursima.

25) Navedite razne načine rada u Hadoopu

Načini rada u Hadoopu su 1) Samostalni način 2) Pseudo distribuirani način 3) Potpuno distribuirani način.

26) Kako postići sigurnost u Hadoopu?

Izvršite sljedeće korake za postizanje sigurnosti u Hadoopu:

1) Prvi je korak osigurati kanal za provjeru autentičnosti klijenta na poslužitelju. Klijentu pružite vremenski pečat.

2) U drugom koraku, klijent koristi primljeni vremenski žig da zatraži TGS za uslužnu kartu.

3) U posljednjem koraku klijent koristi ulaznicu za uslugu za samoprovjeru određenog poslužitelja.

27) Što je otkucaji srca u Hadoopu?

U Hadoopu, NameNode i DataNode međusobno komuniciraju. Otkucaji srca su signal koji DataNode redovito šalje na NameNode kako bi pokazao svoju prisutnost.

28) Razlikovati NAS i DAS u Hadoopu

NAS	DAS
Kapacitet pohrane je 10 ⁹ do 10 ¹² bajta.	Kapacitet pohrane je 10 ⁹ bajta.
Troškovi upravljanja po GB umjereni su.	Troškovi upravljanja po GB su visoki.
Prenos podataka putem Etherneta ili TCP / IP.	Prenos podataka pomoću IDE / SCSI

29) Navedite važna polja ili jezike koje koristi inženjer podataka

Evo nekoliko polja ili jezika koje koristi inženjer podataka:

Vjerojatnost kao i linearna algebra
Strojno učenje
Analiza i regresija trendova
Hive QL i SQL baze podataka

30) Što su veliki podaci?

Riječ je o velikoj količini strukturiranih i nestrukturiranih podataka koji se ne mogu lako obraditi tradicionalnim metodama pohrane podataka. Inženjeri podataka koriste Hadoop za upravljanje velikim podacima.

31) Što je FIFO zakazivanje?

To je algoritam raspoređivanja poslova Hadoop. U ovom FIFO rasporedu, izvjestitelj odabire poslove iz radnog reda, najstarijeg posla prvo.

32) Spomenite zadane brojeve priključaka na kojima se program za praćenje zadataka, NameNode i track track izvršava u Hadoopu

Zadani brojevi porta na kojima se program za praćenje zadataka, NameNode i track track izvršavaju u Hadoopu su sljedeći:

Tragač zadataka radi na portu 50060
NameNode radi na portu 50070
Job Tracker radi na luci 50030

33) Kako onemogućiti blok skener na HDFS podatkovnom čvoru

Da biste onemogućili blokiranje skenera na HDFS podatkovnom čvoru, postavite dfs.datanode.scan.period.hours na 0.

34) Kako definirati udaljenost između dva čvora u Hadoopu?

Udaljenost je jednaka zbroju udaljenosti do najbližih čvorova. Metoda getDistance () koristi se za izračunavanje udaljenosti između dva čvora.

35) Zašto koristiti robni hardver u Hadoopu?

Robni hardver lako je nabaviti i priuštiti ga. To je sustav koji je kompatibilan sa sustavom Windows, MS-DOS ili Linux.

36) Definirajte faktor replikacije u HDFS-u

Faktor replikacije je ukupan broj replika datoteke u sustavu.

37) Koji se podaci pohranjuju u NameNode?

Namenode pohranjuje metapodatke za HDFS poput podataka o blokovima i podataka o prostoru imena.

38) Što podrazumijevate pod Rack Awareness?

U Haddop klasteru, Namenode koristi Datanode za poboljšanje mrežnog prometa tijekom čitanja ili pisanja bilo koje datoteke koja je bliža obližnjem stalku za zahtjev za čitanje ili pisanje. Namenode održava ID regala svakog DataNode kako bi postigao informacije o stalku. Ovaj koncept naziva se Rack Awareness u Hadoop-u.

39) Koje su funkcije Secondary NameNode?

Slijede funkcije Secondary NameNode:

FsImage koji pohranjuje kopiju datoteke EditLog i FsImage.
Rušenje NameNode: Ako se NameNode sruši, tada se FsImage sekundarnog NameNode može koristiti za ponovno stvaranje NameNode.
Kontrolna točka: koristi ga Secondary NameNode da potvrdi da podaci nisu oštećeni u HDFS-u.
Ažuriranje: Automatski ažurira datoteku EditLog i FsImage. Pomaže u ažuriranju datoteke FsImage na Secondary NameNode.

40) Što se događa kada NameNode padne, a korisnik pošalje novi posao?

NameNode je jedina točka neuspjeha u Hadoopu, tako da korisnik ne može poslati novi posao, ne može ga izvršiti. Ako NameNode ne radi, tada posao možda neće uspjeti, jer taj korisnik mora pričekati da se NameNode ponovno pokrene prije izvođenja bilo kojeg posla.

41) Koje su osnovne faze reduktora u Hadoopu?

U Hadoopu postoje tri osnovne faze reduktora:

1. Nasumično miješanje: Ovdje Reducer kopira izlaz iz Mappera.

2. Poredaj: U sortiranju, Hadoop sortira ulaz na Reduktor pomoću iste tipke.

3. Smanji: U ovoj se fazi izlazne vrijednosti povezane s ključem smanjuju kako bi se podaci objedinili u konačni izlaz.

42) Zašto Hadoop koristi objekt Context?

Hadoop framework koristi objekt Context s klasom Mapper za interakciju s preostalim sustavom. Kontekstni objekt dobiva detalje o konfiguraciji sustava i posao u svom konstruktoru.

Objekt Context koristimo za prosljeđivanje podataka u metodama setup (), cleanup () i map (). Ovaj objekt čini vitalne informacije dostupnim tijekom operacija na karti.

43) Definirajte kombinirač u Hadoopu

To je neobavezni korak između Map i Reduce. Kombinator uzima izlaz iz funkcije Map, stvara parove ključnih vrijednosti i predaje Hadoop Reductoru. Zadatak kombinirača je sažeti konačni rezultat iz Mape u sažete zapise identičnim ključem.

44) Koji je zadani faktor replikacije dostupan u HDFS-u Što označava?

Zadani faktor replikacije dostupan u HDFS-u je tri. Zadani faktor replikacije označava da će postojati tri replike svakog podatka.

45) Kako to mislite Mjesto podataka u Hadoopu?

U sustavu velikih podataka veličina podataka je ogromna i zato nema smisla premještati podatke po mreži. Sada, Hadoop pokušava računarstvo približiti podacima. Na taj način podaci ostaju lokalni na pohranjenom mjestu.

46) Definirajte ravnotežu u HDFS-u

U HDFS-u uravnoteživač je administrativno sredstvo koje administrativno osoblje koristi za ponovno uravnoteženje podataka kroz DataNodes i premješta blokove iz prekomjerno iskorištenih u nedovoljno korištene čvorove.

47) Objasnite siguran način rada u HDFS-u

To je način samo za čitanje NameNode u klasteru. U početku je NameNode u Safemodeu. Sprečava pisanje u datotečni sustav u Safemodeu. Trenutno prikuplja podatke i statistiku iz svih DataNodes-a.

48) Koja je važnost distribuirane predmemorije u Apache Hadoopu?

Hadoop ima korisnu uslužnu značajku takozvanu Distribuiranu predmemoriju koja poboljšava izvedbu poslova predmemoriranjem datoteka koje koriste aplikacije. Aplikacija može odrediti datoteku za predmemoriju pomoću konfiguracije JobConf.

Hadoop framework čini kopiju tih datoteka na čvorovima koji zadatak treba izvršiti. To se radi prije početka izvršavanja zadatka. Distribuirana predmemorija podržava distribuciju datoteka samo za čitanje, kao i zipova i staklenki.

49) Što je Metastore u košnici?

Pohranjuje shemu kao i mjesto tablice košnice.

Tablica košnica definira, preslikavanja i metapodatke koji su pohranjeni u Metastoreu. To se može pohraniti u RDBMS koji podržava JPOX.

50) Što podrazumijevam pod SerDe u košnici?

SerDe je kratko ime za Serializer ili Deserializer. U Hive-u, SerDe omogućuje čitanje podataka iz tablice u određeno polje i pisanje u bilo kojem formatu koji želite.

51) Popis komponenata dostupnih u podatkovnom modelu Hive

U podatkovnom modelu Hive postoje sljedeće komponente:

Stolovi
Pregrade
Kante

52) Objasnite upotrebu košnice u Hadoop ekosustavu.

Hive nudi sučelje za upravljanje podacima pohranjenim u Hadoop ekosustavu. Košnica se koristi za mapiranje i rad s HBase tablicama. Upiti za košnice pretvaraju se u poslove MapReduce kako bi se sakrila složenost povezana sa stvaranjem i izvođenjem poslova MapReduce.

53) Navedite različite složene vrste podataka / prikupljanje koje podržava Hive

Hive podržava sljedeće složene vrste podataka:

Karta
Struktura
Polje
Unija

54) Objasnite kako se koristi .hiverc datoteka u košnici?

U Hiveu je .hiverc datoteka za inicijalizaciju. Ova se datoteka u početku učitava kada započnemo sučelje naredbenog retka (CLI) za Hive. Početne vrijednosti parametara možemo postaviti u .hiverc datoteci.

55) Je li moguće stvoriti više od jedne tablice u Hive-u za jednu podatkovnu datoteku?

Da, možemo stvoriti više shema tablice za podatkovnu datoteku. Shema sprema košnicu u Hive Metastore. Na temelju ove sheme možemo dohvatiti različite rezultate iz istih podataka.

56) Objasnite različite implementacije SerDe-a dostupne u Hive-u

U Hive-u su dostupne mnoge implementacije SerDe-a. Također možete napisati vlastitu prilagođenu implementaciju SerDe-a. Slijedi nekoliko poznatih implementacija SerDe:

OpenCSVSerde
RegexSerDe
RazgraničenoJSONSerDe
ByteStreamTypedSerDe

57) Popis funkcija za generiranje tablice dostupnih u Hiveu

Slijedi popis funkcija za generiranje tablice:

Eksplodirati (niz)
JSON_tuple ()
Stog()
Eksplodiraj (karta)

58) Što je iskrivljeni stol u košnici?

Nagnuta tablica je tablica koja češće sadrži vrijednosti stupaca. U Hiveu, kada tijekom stvaranja odredimo tablicu kao SKEWED, iskrivljene vrijednosti zapisuju se u zasebne datoteke, a preostale vrijednosti idu u drugu datoteku.

59) Popis objekata stvorenih naredbom create u MySQL.

Objekti stvoreni naredbom create u MySQL su sljedeći:

Baza podataka
Indeks
Stol
Korisnik
Postupak
Okidač
Događaj
Pogled
Funkcija

60) Kako vidjeti strukturu baze podataka u MySQL-u?

Možete vidjeti strukturu baze podataka u MySQL-u

Naredba OPISI. Sintaksa ove naredbe je OPISI naziv tablice ;.

61) Kako potražiti određeni niz u stupcu tablice MySQL?

Koristite regex operator za traženje Stringa u MySQL stupcu. Ovdje također možemo definirati razne vrste regularnih izraza i tražiti korištenje regularnog izraza.

62) Objasnite kako analitika podataka i veliki podaci mogu povećati prihod tvrtke?

Slijede načini na koje analitika podataka i veliki podaci mogu povećati prihod tvrtke:

Učinkovito koristite podatke kako biste osigurali rast poslovanja.
Povećajte vrijednost kupca.
Pretvaranje analitičkog u svrhu poboljšanja prognoza broja zaposlenih.
Smanjivanje proizvodnih troškova organizacija.