Što je Hadoop? Uvod, arhitektura, ekosustav, komponente

Što je Hadoop?

Apache Hadoop je softverski okvir otvorenog koda koji se koristi za razvoj aplikacija za obradu podataka koje se izvršavaju u distribuiranom računalnom okruženju.

Aplikacije izgrađene pomoću HADOOP-a pokreću se na velikim skupovima podataka raspoređenim u klastere robnih računala. Robna računala su jeftina i široko dostupna. Oni su uglavnom korisni za postizanje veće računske snage uz nisku cijenu.

Slično podacima koji se nalaze u lokalnom datotečnom sustavu sustava osobnih računala, i u Hadoopu se podaci nalaze u distribuiranom datotečnom sustavu koji se naziva Hadoop distribuiranim datotečnim sustavom . Model obrade temelji se na konceptu 'Lokacije podataka', pri čemu se računalna logika šalje čvorovima klastera (poslužitelju) koji sadrže podatke. Ova računska logika nije ništa drugo nego kompilirana verzija programa napisana na jeziku visoke razine kao što je Java. Takav program obrađuje podatke pohranjene u Hadoop HDFS.

Znaš li? Računalni klaster sastoji se od skupa više procesorskih jedinica (disk za pohranu + procesor) koji su međusobno povezani i djeluju kao jedinstveni sustav.

U ovom ćete tutorijalu naučiti,

Hadoop EcoSystem i komponente
Hadoop arhitektura
Značajke "Hadoopa"
Topologija mreže u Hadoopu

Hadoop EcoSystem i komponente

Ispod dijagrama prikazane su različite komponente u Hadoop ekosustavu-

Apache Hadoop sastoji se od dva potprojekta -

Hadoop MapReduce: MapReduce je računski model i softverski okvir za pisanje aplikacija koje se izvode na Hadoopu. Ovi programi MapReduce sposobni su paralelno obrađivati ogromne podatke na velikim klasterima računskih čvorova.
HDFS ( Hadoop distribuirani datotečni sustav ): HDFS se brine o dijelu za pohranu Hadoop aplikacija. Aplikacije MapReduce troše podatke iz HDFS-a. HDFS stvara višestruke replike blokova podataka i distribuira ih na računskim čvorovima u klasteru. Ova distribucija omogućuje pouzdana i izuzetno brza izračunavanja.

Iako je Hadoop najpoznatiji po MapReduceu i njegovom distribuiranom datotečnom sustavu - HDFS, taj se izraz koristi i za obitelj povezanih projekata koji potpadaju pod kišobran distribuiranog računanja i velike obrade podataka. Ostali projekti povezani s Hadoop-om u Apacheu uključuju Hive, HBase, Mahout, Sqoop, Flume i ZooKeeper.

Hadoop arhitektura

Hadoop ima Master-Slave arhitekturu za pohranu podataka i distribuiranu obradu podataka pomoću MapReduce i HDFS metoda.

NameNode:

NameNode predstavljao je sve datoteke i imenike koji se koriste u prostoru imena

Čvor podataka:

DataNode vam pomaže u upravljanju stanjem HDFS čvora i omogućuje vam interakciju s blokovima

MasterNode:

Glavni čvor omogućuje vam paralelnu obradu podataka pomoću Hadoop MapReduce.

Podređeni čvor:

Podređeni čvorovi dodatni su strojevi u Hadoop klasteru koji vam omogućuje pohranu podataka za provođenje složenih izračuna. Štoviše, sa svim podređenim čvorom dolazi Task Tracker i DataNode. To vam omogućuje sinkronizaciju procesa s NameNode i Job Tracker.

U Hadoopu se glavni ili slave sustav može postaviti u oblaku ili na lokaciji

Značajke "Hadoopa"

• Prikladno za analizu velikih podataka

Kako se Big Data uglavnom distribuira i nestrukturira u prirodi, HADOOP klasteri su najprikladniji za analizu velikih podataka. Budući da se obračunska logika (a ne stvarni podaci) prelijevaju na računske čvorove, troši se manja propusnost mreže. Ovaj koncept naziva se konceptom lokaliteta podataka koji pomaže povećati učinkovitost aplikacija temeljenih na Hadoop-u.

• Skalabilnost

HADOOP klastere lako je prilagoditi u bilo kojoj mjeri dodavanjem dodatnih čvorova klastera i na taj način omogućuje rast velikih podataka. Također, skaliranje ne zahtijeva izmjene logike aplikacije.

• Tolerancija kvarova

HADOOP ekosustav ima mogućnost repliciranja ulaznih podataka na druge čvorove klastera. Na taj se način, u slučaju kvara čvora klastera, obrada podataka i dalje može nastaviti korištenjem podataka pohranjenih na drugom čvoru klastera.

Topologija mreže u Hadoopu

Topologija (uređenje) mreže utječe na performanse klastera Hadoop kada veličina klastera Hadoop raste. Osim performansi, treba brinuti i o velikoj dostupnosti i rješavanju kvarova. Da bi se postigao ovaj Hadoop, formiranje klastera koristi topologiju mreže.

Obično je mrežna propusnost važan čimbenik koji treba uzeti u obzir prilikom formiranja bilo koje mreže. Međutim, kako bi mjerenje širine pojasa moglo biti teško, u Hadoopu je mreža predstavljena kao stablo, a udaljenost između čvorova ovog stabla (broj poskokova) smatra se važnim čimbenikom u stvaranju Hadoop klastera. Ovdje je udaljenost između dva čvora jednaka zbroju njihove udaljenosti od njihovog najbližeg zajedničkog pretka.

Klaster Hadoop sastoji se od podatkovnog centra, stalka i čvora koji zapravo izvršava poslove. Ovdje se podatkovni centar sastoji od stalka, a stalak se sastoji od čvorova. Propusnost mreže dostupna procesima varira ovisno o mjestu procesa. Odnosno, raspoloživa širina pojasa postaje sve manja kako odlazimo od-