Kako instalirati Hadoop s korak po korak konfiguracijom na Ubuntu

Sadržaj:

Anonim

U ovom vodiču vodit ćemo vas kroz korak po korak kako biste instalirali Apache Hadoop na Linux box (Ubuntu). Ovo je dvodijelni postupak

  • 1. dio) Preuzmite i instalirajte Hadoop
  • Dio 2) Konfiguriranje Hadoopa

Postoje 2 preduvjeta

  • Morate imati instaliran i pokrenut Ubuntu
  • Morate imati instaliranu Javu.

1. dio) Preuzmite i instalirajte Hadoop

Korak 1) Dodajte korisnika sustava Hadoop pomoću naredbe u nastavku

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Unesite lozinku, ime i ostale detalje.

NAPOMENA: Postoji mogućnost dolje spomenute pogreške u ovom postupku postavljanja i instalacije.

"hduser nije u datoteci sudoersa. Ovaj će incident biti prijavljen."

Ovu pogrešku može riješiti Prijava kao root korisnik

Izvršite naredbu

sudo adduser hduser_ sudo

Re-login as hduser_

Korak 2) Konfigurirajte SSH

Da bi upravljao čvorovima u klasteru, Hadoop zahtijeva SSH pristup

Prvo prebacite korisnika, unesite sljedeću naredbu

su - hduser_

Ova naredba će stvoriti novi ključ.

ssh-keygen -t rsa -P ""

Omogućite SSH pristup lokalnom stroju pomoću ove tipke.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Sada testirajte SSH postavke povezivanjem na localhost kao 'hduser' korisnik.

ssh localhost

Napomena: Imajte na umu, ako u nastavku vidite pogrešku kao odgovor na 'ssh localhost', tada postoji mogućnost da SSH nije dostupan na ovom sustavu-

Da biste to riješili -

Pročistiti SSH koristeći,

sudo apt-get purge openssh-server

Dobra je praksa očistiti prije početka instalacije

Instalirajte SSH pomoću naredbe-

sudo apt-get install openssh-server

Korak 3) Sljedeći korak je preuzimanje Hadoopa

Odaberite Stabilno

Odaberite datoteku tar.gz (ne datoteku sa src)

Kada je preuzimanje završeno, pomaknite se do direktorija koji sadrži tar datoteku

Unesi,

sudo tar xzf hadoop-2.2.0.tar.gz

Sada preimenujte hadoop-2.2.0 u hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Dio 2) Konfiguriranje Hadoopa

Korak 1) Izmijenite datoteku ~ / .bashrc

Dodajte sljedeće retke na kraj datoteke ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Sada izvor ove konfiguracije okruženja koristite naredbom ispod

. ~/.bashrc

Korak 2) Konfiguracije povezane s HDFS-om

Postavite JAVA_HOME unutar datoteke $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

S

U $ HADOOP_HOME / etc / hadoop / core-site.xml postoje dva parametra koja treba postaviti-

1. 'hadoop.tmp.dir' - koristi se za određivanje direktorija koji će Hadoop koristiti za pohranu svojih podatkovnih datoteka.

2. 'fs.default.name' - Ovo određuje zadani datotečni sustav.

Da biste postavili ove parametre, otvorite core-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopirajte donji redak između oznaka

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Idite do direktorija $ HADOOP_HOME / etc / Hadoop

Sada stvorite direktorij spomenut u core-site.xml

sudo mkdir -p 

Dodijelite dozvole direktoriju

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Korak 3) Konfiguracija smanjenja karte

Prije nego započnete s ovim konfiguracijama, dopustimo postavljanje putanje HADOOP_HOME

sudo gedit /etc/profile.d/hadoop.sh

I uđite

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Sljedeći enter

sudo chmod +x /etc/profile.d/hadoop.sh

Izađite iz terminala i ponovno pokrenite

Upišite echo $ HADOOP_HOME. Da biste provjerili put

Sada kopirajte datoteke

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Otvorite datoteku mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Dodajte donje retke postavljanja između oznaka i

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Otvorite $ HADOOP_HOME / etc / hadoop / hdfs-site.xml kao dolje,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

U nastavku dodajte redove postavljanja između oznaka i

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Stvorite direktorij naveden u gornjoj postavci-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Korak 4) Prije nego što prvi put pokrenemo Hadoop, formatirajte HDFS pomoću naredbe u nastavku

$HADOOP_HOME/bin/hdfs namenode -format

Korak 5) Pokrenite Hadoop klaster pojedinačnih čvorova pomoću naredbe u nastavku

$HADOOP_HOME/sbin/start-dfs.sh

Izlaz gornje naredbe

$HADOOP_HOME/sbin/start-yarn.sh

Pomoću alata / naredbe 'jps' provjerite rade li svi procesi povezani s Hadoop-om ili ne.

Ako je Hadoop uspješno započeo, tada bi izlaz jps trebao prikazati NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.

Korak 6) Zaustavljanje Hadoopa

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh