Top 60 Hadoop & Pitanja za intervju za MapReduce & Odgovori

Anonim

Preuzmite PDF

Slijede često postavljana pitanja u intervjuima za svježe i iskusne programere.

1) Što je Hadoop Map Reduce?

Za paralelnu obradu velikih skupova podataka preko klastera Hadoop koristi se okvir Hadoop MapReduce. Analiza podataka koristi mapu u dva koraka i postupak smanjenja.

2) Kako funkcionira Hadoop MapReduce?

U MapReduceu, tijekom faze karte, broji riječi u svakom dokumentu, dok u fazi smanjenja agregira podatke prema dokumentu koji obuhvaća cijelu zbirku. Tijekom faze karte ulazni podaci podijeljeni su na dijeljenja za analizu zadacima karte koji se paralelno izvode preko Hadoop okvira.

3) Objasnite što je miješanje u MapReduceu?

Proces kojim sustav izvodi sortiranje i prenosi izlaze karte na reduktor kao ulaze poznat je kao miješanje

4) Objasnite što se distribuira predmemorija u MapReduce Framework?

Distribuirana predmemorija je važna značajka koju pruža okvir MapReduce. Kada želite dijeliti neke datoteke na svim čvorovima u Hadoop klasteru, koristi se distribuirana predmemorija. Datoteke mogu biti izvršne jar datoteke ili datoteka jednostavnih svojstava.

5) Objasnite što je NameNode u Hadoopu?

NameNode u Hadoopu je čvor, gdje Hadoop pohranjuje sve podatke o lokaciji datoteke u HDFS (Hadoop distribuirani datotečni sustav). Drugim riječima, NameNode je središnji dio HDFS datotečnog sustava. Čuva evidenciju svih datoteka u datotečnom sustavu i prati podatke o datotekama na klasteru ili na više strojeva

6) Objasnite što je JobTracker u Hadoopu? Koje akcije slijedi Hadoop?

U Hadoopu za slanje i praćenje MapReduce poslova koristi se JobTracker. Tragač za poslom pokreće se prema vlastitom JVM procesu

Job Tracker izvodi sljedeće radnje u Hadoopu

  • Klijentska prijava predaje poslove na tragač posla
  • JobTracker komunicira s načinom Imena kako bi odredio mjesto podataka
  • U blizini podataka ili s dostupnim utorima JobTracker pronalazi čvorove TaskTracker
  • Na odabranim čvorovima TaskTracker prijavljuje rad
  • Kada zadatak ne uspije, Job tracker obavijesti i odluči što će tada učiniti.
  • Čvorove TaskTracker nadgleda JobTracker

7) Objasnite što je otkucaj srca u HDFS-u?

Otkucaji srca upućuju na signal koji se koristi između podatkovnog čvora i čvora imena, te između tragača zadataka i tragača poslova, ako čvor imena ili tragač posla ne reagira na signal, smatra se da postoje neki problemi s čvorom podataka ili zadatkom tragač

8) Objasnite što su kombinirači i kada biste trebali koristiti kombinirač u zadatku MapReduce?

Da bi se povećala učinkovitost MapReduce programa, koriste se kombinirači. Količina podataka može se smanjiti uz pomoć kombinacije koje treba prenijeti na reduktore. Ako je izvedena operacija komutativna i asocijativna, možete koristiti svoj reduktorski kod kao kombinirač. Izvođenje kombinacije nije zajamčeno u Hadoopu

9) Što se događa kada čvor podataka zakaže?

Kada čvor podataka zakaže

  • Jobtracker i namenode otkrivaju kvar
  • Na neuspjelom čvoru svi zadaci su ponovno raspoređeni
  • Namenode replicira korisničke podatke na drugi čvor

10) Objasnite što je spekulativno izvršenje?

U Hadoopu tijekom spekulativnog izvršavanja pokrenut je određeni broj duplikata zadataka. Na drugom slave čvoru može se izvršiti više kopija iste mape ili zadatka reduciranja pomoću Speculative Execution. Jednostavnim riječima, ako određenom pogonu treba puno vremena da izvrši zadatak, Hadoop će stvoriti duplicirani zadatak na drugom disku. Disk koji prvi završi zadatak zadržava se, a diskovi koji ne završe prvi ubijaju se.

11) Objasnite koji su osnovni parametri Mappera?

Osnovni parametri Mappera su

  • LongWritable i Text
  • Tekst i zapisivanje

12) Objasnite koja je funkcija particije MapReduce?

Funkcija particionera MapReduce je osigurati da sva vrijednost pojedinog ključa ide na isti reduktor, što na kraju pomaže ravnomjernoj raspodjeli izlaza karte po reduktorima

13) Objasnite koja je razlika između unosa i HDFS bloka?

Logička podjela podataka poznata je pod nazivom Split, dok je fizička podjela podataka poznata kao HDFS Block

14) Objasnite što se događa u tekstualnom formatu?

U formatu za unos teksta, svaki redak u tekstualnoj datoteci je zapis. Vrijednost je sadržaj retka, dok je Key pomak bajta linije. Na primjer, Key: longWritable, Value: text

15) Spomenite koji su glavni konfiguracijski parametri koje korisnik treba navesti za pokretanje MapReduce Job?

Korisnik okvira MapReduce mora navesti

  • Lokacije za unos posla u distribuiranom datotečnom sustavu
  • Izlazno mjesto posla u distribuiranom datotečnom sustavu
  • Ulazni format
  • Izlazni format
  • Klasa koja sadrži funkciju karte
  • Klasa koja sadrži funkciju redukcije
  • JAR datoteka koja sadrži klase mapiranja, reduktora i upravljačkih programa

16) Objasnite što je WebDAV u Hadoopu?

Da bi podržao uređivanje i ažuriranje datoteka, WebDAV je skup proširenja za HTTP. Na većini operativnih sustava WebDAV dionice mogu se montirati kao datotečni sustavi, pa je moguće pristupiti HDFS-u kao standardnom datotečnom sustavu izlaganjem HDFS-a preko WebDAV-a.

17) Objasnite što je Sqoop u Hadoopu?

Za prijenos podataka između relacijskog upravljanja bazom podataka (RDBMS) i Hadoop HDFS koristi se alat poznat kao Sqoop. Korištenje Sqoop podataka može se prenijeti iz RDMS-a poput MySQL-a ili Oracle-a u HDFS, kao i izvoz podataka iz HDFS datoteke u RDBMS

18) Objasnite kako JobTracker planira zadatak?

Tragač zadataka šalje poruke otkucaja srca Jobtrackeru obično svakih nekoliko minuta kako bi bio siguran da je JobTracker aktivan i funkcionira. Poruka također informira JobTracker o broju dostupnih mjesta, tako da JobTracker može biti u toku s tim u kojem se rad klastera može delegirati

19) Objasnite što je Sequencefileinputformat?

Sequencefileinputformat koristi se za čitanje datoteka u nizu. To je specifični komprimirani binarni format datoteke koji je optimiziran za prosljeđivanje podataka između izlaza jednog zadatka MapReduce na ulaz nekog drugog zadatka MapReduce.

20) Objasnite što radi klasa conf.setMapper?

Conf.setMapperclass postavlja klasu mapper i sve stvari povezane s poslom karte, poput čitanja podataka i generiranja para ključ / vrijednost iz mappera

21) Objasnite što je Hadoop?

To je softver otvorenog koda za pohranu podataka i pokretanje aplikacija na klasterima robnog hardvera. Pruža ogromnu procesorsku snagu i masivno skladištenje bilo koje vrste podataka.

22) Spomenite koja je razlika između RDBMS-a i Hadoopa?

RDBMS Hadoop
RDBMS je relacijski sustav upravljanja bazama podataka Hadoop je ravna struktura zasnovana na čvorovima
Služio je za OLTP obradu dok Hadoop Trenutno se koristi za analitičku obradu i za VELIKE PODATKE
U RDBMS-u klaster baze podataka koristi iste podatkovne datoteke pohranjene u zajedničkoj pohrani U Hadoopu, podaci za pohranu mogu se pohraniti neovisno u svaki čvor za obradu.
Prije spremanja podataka morate prethodno obraditi podatke ne trebate prethodno obrađivati ​​podatke prije nego što ih pohranite

23) Spomenuti komponente Hadoop jezgre?

Hadoop temeljne komponente uključuju,

  • HDFS
  • MapReduce

24) Što je NameNode u Hadoopu?

NameNode u Hadoopu je mjesto gdje Hadoop pohranjuje sve podatke o lokaciji datoteke u HDFS-u. To je glavni čvor na kojem se izvršava program za praćenje poslova i sastoji se od metapodataka.

25) Spomenite koje su komponente podataka koje koristi Hadoop?

Komponente podataka koje koristi Hadoop su

  • Svinja
  • Košnica

26) Spomenite koju komponentu za pohranu podataka koristi Hadoop?

Komponenta za pohranu podataka koju koristi Hadoop je HBase.

27) Spomenite koji su najčešći ulazni formati definirani u Hadoopu?

Najčešći ulazni formati definirani u Hadoopu su;

  • TextInputFormat
  • KeyValueInputFormat
  • SequenceFileInputFormat

28) Što je u Hadoopu InputSplit?

Dijeli ulazne datoteke na komade i svaki rascjep dodjeljuje mapiraču za obradu.

29) Kako ćete za Hadoop posao napisati prilagođeni particij?

Napišete prilagođeni particioner za posao Hadoop-a, slijedite sljedeći put

  • Stvorite novu klasu koja proširuje Partitioner Class
  • Metoda nadjačavanja getPartition
  • U omotu koji pokreće MapReduce
  • Dodajte prilagođeni particioner u posao pomoću skupa metoda Partitioner Class ili - dodajte prilagođeni particioner poslu kao konfiguracijsku datoteku

30) Je li moguće za posao u Hadoopu promijeniti broj mapira koji će se stvoriti?

Ne, nije moguće promijeniti broj mapira koji će se stvoriti. Broj mapiranja određuje se brojem ulaznih podjela.

31) Objasnite što je datoteka niza u Hadoopu?

Za spremanje binarnih parova ključ / vrijednost koristi se datoteka sljedova. Za razliku od uobičajene komprimirane datoteke, datoteka sekvence podržava razdvajanje čak i kad su podaci u datoteci komprimirani.

32) Kada Namenode padne, što se događa s tragačem posla?

Namenode je jedina točka kvara u HDFS-u, pa kad Namenode padne, klaster će krenuti.

33) Objasnite kako se vrši indeksiranje u HDFS-u?

Hadoop ima jedinstveni način indeksiranja. Jednom kada se podaci pohrane prema veličini bloka, HDFS će nastaviti pohranjivati ​​zadnji dio podataka koji govori gdje će biti sljedeći dio podataka.

34) Objasnite je li moguće pretraživati ​​datoteke pomoću zamjenskih znakova?

Da, moguće je pretraživati ​​datoteke pomoću zamjenskih znakova.

35) Navedi tri konfiguracijske datoteke Hadoopa?

Tri su konfiguracijske datoteke

  • core-site.xml
  • mapred-site.xml
  • hdfs-site.xml

36) Objasnite kako možete provjeriti radi li Namenode uz pomoć jps naredbe?

Osim korištenja jps naredbe, za provjeru rade li Namenode također možete koristiti

/etc/init.d/hadoop-0.20-namenode status.

37) Objasnite što je "karta", a što "reduktor" u Hadoopu?

U Hadoopu je karta faza u rješavanju upita HDFS-a. Karta čita podatke s mjesta unosa i izbacuje par vrijednosti ključa prema vrsti unosa.

U Hadoopu reduktor prikuplja izlaz koji generira mapper, obrađuje ga i stvara vlastiti konačni izlaz.

38) Koja datoteka u Hadoopu kontrolira izvještavanje u Hadoopu?

U Hadoopu datoteka hadoop-metrics.properties kontrolira izvještavanje.

39) Za upotrebu popisa Hadoop mrežnih zahtjeva?

Za upotrebu Hadoopa popis mrežnih zahtjeva su:

  • SSH veza bez lozinke
  • Sigurna ljuska (SSH) za pokretanje poslužiteljskih procesa

40) Spomenite što je svijest o stalku?

Svjesnost stalka je način na koji namenode određuje način postavljanja blokova na temelju definicija stalka.

41) Objasnite što je alat za praćenje zadataka u Hadoopu?

Tragač zadataka u Hadoopu je demon podređenog čvora u klasteru koji prihvaća zadatke iz JobTrackera. Također šalje poruka otkucaja srca JobTrackeru, svakih nekoliko minuta, kako bi potvrdio da je JobTracker još uvijek živ.

42) Spomenite koji demoni rade na glavnom čvoru i pomoćnom čvoru?

  • Demoni koji se izvode na glavnom čvoru su "NameNode"
  • Demoni koji se izvode na svakom podređenom čvoru su "Traganje zadataka" i "Podaci"

43) Objasnite kako možete ispraviti pogreške u Hadoop kodu?

Popularne metode za otklanjanje pogrešaka Hadoop koda su:

  • Korištenjem web sučelja koje pruža Hadoop framework
  • Korištenjem brojača

44) Objasnite što su čvorovi za pohranu i izračunavanje?

  • Čvor za pohranu je stroj ili računalo na kojem se nalazi vaš datotečni sustav za pohranu podataka obrade
  • Računarski čvor je računalo ili stroj na kojem će se izvršiti vaša stvarna poslovna logika.

45) Spomenite što koristi Context Object?

Kontekstni objekt omogućuje mapiraču interakciju s ostatkom Hadoopa

sustav. Sadrži konfiguracijske podatke za posao, kao i sučelja koja mu omogućuju odašiljanje izlaza.

46) Spomenite koji je sljedeći korak nakon Mappera ili MapTaska?

Sljedeći korak nakon Mappera ili MapTaska je da se izlazi Mappera sortiraju i za izlaz će se stvoriti particije.

47) Spomenite koliki je broj zadanih particija u Hadoopu?

U Hadoopu, zadani je particioner "Hash" particioner.

48) Objasnite koja je svrha RecordReader-a u Hadoopu?

U Hadoopu RecordReader učitava podatke iz svog izvora i pretvara ih u parove (ključ, vrijednost) prikladne za čitanje pomoću Mappera.

49) Objasnite kako se podaci dijele prije nego što se pošalju reduktoru ako u Hadoopu nije definiran nijedan prilagođeni particij?

Ako u Hadoopu nije definiran nijedan prilagođeni particioner, tada zadani particij izračunava hash vrijednost za ključ i dodjeljuje particiju na temelju rezultata.

50) Objasnite što se događa kada je Hadoop izradio 50 zadataka za posao, a jedan od zadataka nije uspio?

Ponovno će pokrenuti zadatak na nekom drugom TaskTrackeru ako zadatak ne uspije više od definiranog ograničenja.

51) Spomenite koji je najbolji način kopiranja datoteka između HDFS klastera?

Najbolji način za kopiranje datoteka između HDFS klastera je korištenje više čvorova i naredbe distcp, tako da se radno opterećenje dijeli.

52) Spomenite koja je razlika između HDFS-a i NAS-a?

Blokovi podataka HDFS-a distribuiraju se preko lokalnih pogona svih strojeva u klasteru, dok se NAS podaci pohranjuju na namjenski hardver.

53) Spomenite kako se Hadoop razlikuje od ostalih alata za obradu podataka?

U Hadoopu možete povećati ili smanjiti broj mapiranja bez brige o količini podataka koji se obrađuju.

54) Spomenite koji posao obavlja razred conf?

Klasa Job conf odvaja različite poslove koji se izvode na istoj klasteru. Radi postavke na razini posla, poput prijavljivanja posla u stvarnom okruženju.

55) Spomenite što je ugovor o API-ima Hadoop MapReduce za klasu ključ i vrijednost?

Za klasu ključ i vrijednost postoje dva ugovora o API-ju Hadoop MapReduce

  • Vrijednost mora definirati sučelje org.apache.hadoop.io.Writable
  • Ključ mora definirati sučelje org.apache.hadoop.io.WritableComparable

56) Spomenite koja su tri načina u kojima se može pokretati Hadoop?

Tri su načina u kojima se može pokrenuti Hadoop

  • Pseudo distribuirani način
  • Samostalni (lokalni) način rada
  • Potpuno distribuirani način rada

57) Spomenite što čini format unosa teksta?

Format za unos teksta stvorit će linijski objekt koji je heksadecimalni broj. Vrijednost se razmatra kao tekst cijelog retka, dok se ključ smatra objektom linije. Maper će dobiti vrijednost kao parametar 'text', dok će ključ dobiti kao parametar 'longwriteable'.

58) Spomenite koliko InputSplits izrađuje Hadoop Framework?

Hadoop će napraviti 5 podjela

  • 1 podjela za 64K datoteke
  • 2 podjele za datoteke veličine 65 MB
  • 2 razdvajanja za datoteke veličine 127 MB

59) Spomenite što je distribuirana predmemorija u Hadoopu?

Distribuirana predmemorija u Hadoopu objekt je koji pruža MapReduce framework. U vrijeme izvršenja posla koristi se za predmemoriranje datoteke. Framework kopira potrebne datoteke u slave čvor prije izvođenja bilo kojeg zadatka na tom čvoru.

60) Objasnite kako Hadoop Classpath igra vitalnu ulogu u zaustavljanju ili pokretanju Hadoop demona?

Classpath će se sastojati od popisa direktorija koji sadrže jar datoteke za zaustavljanje ili pokretanje demona.