Kako instalirati Hadoop Single Node Cluster (Pseudonode) na CentOS 7


Hadoop je okvir otvorenog koda koji se naširoko koristi za rješavanje Bigdata. Većina projekata Bigdata/Data Analytics gradi se na vrhu Hadoop eko-sistema. Sastoji se od dva sloja, jedan je za Skladištenje podataka, a drugi je za obradu podataka.

Za Skladištenje će se pobrinuti vlastiti sistem datoteka pod nazivom HDFS (Hadoop distribuirani sistem datoteka) i bit će preuzeta Obrada brine YARN (Još jedan pregovarač o resursima). Mapreduce je zadana mašina za obradu Hadoop eko-sistema.

Ovaj članak opisuje proces instaliranja Pseudonode instalacije Hadoopa, gdje će biti svi demoni (JVM) pokreće Single Node Cluster na CentOS 7.

Ovo je uglavnom za početnike koji će naučiti Hadoop. U realnom vremenu, Hadoop će biti instaliran kao višečvorni klaster gdje će podaci biti distribuirani među serverima kao blokovi, a posao će se izvršavati na paralelan način.

Preduvjeti

  • Minimalna instalacija CentOS 7 servera.
  • Java v1.8 izdanje.
  • Hadoop 2.x stabilno izdanje.

Na ovoj stranici

  • Kako instalirati Javu na CentOS 7
  • Postavite prijavu bez lozinke na CentOS 7
  • Kako instalirati Hadoop Single Node u CentOS 7
  • Kako konfigurirati Hadoop u CentOS 7
  • Formatiranje HDFS sistema datoteka preko NameNode

Instalacija Jave na CentOS 7

1. Hadoop je eko-sistem koji se sastoji od Jave. Obavezno nam je potrebna Java instalirana u našem sistemu da bismo instalirali Hadoop.

yum install java-1.8.0-openjdk

2. Zatim provjerite instaliranu verziju Jave na sistemu.

java -version

Konfigurirajte prijavu bez lozinke na CentOS 7

Moramo imati konfiguriran ssh na našoj mašini, Hadoop će upravljati čvorovima uz korištenje SSH. Glavni čvor koristi SSH vezu za povezivanje svojih slave čvorova i obavljanje operacija poput pokretanja i zaustavljanja.

Moramo podesiti ssh bez lozinke tako da master može komunicirati sa slave-ovima koristeći ssh bez lozinke. Inače za svako uspostavljanje veze potrebno je unijeti lozinku.

U ovom jednom čvoru, Master usluge (Namenode, Secondary Namenode & Resource Manager) i Slave< usluge (Datanode & Nodemanager) će raditi kao zasebni JVM. Iako je to pojedinačni čvor, moramo imati ssh bez lozinke da bi Master komunicirao Slave bez autentifikacije.

3. Postavite SSH prijavu bez lozinke koristeći sljedeće komande na serveru.

ssh-keygen
ssh-copy-id -i localhost

4. Nakon što ste konfigurirali SSH prijavu bez lozinke, pokušajte se ponovo prijaviti, bit ćete povezani bez lozinke.

ssh localhost

Instaliranje Hadoopa u CentOS 7

5. Idite na Apache Hadoop web stranicu i preuzmite stabilno izdanje Hadoop-a koristeći sljedeću komandu wget.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Zatim dodajte Hadoop varijable okruženja u datoteku ~/.bashrc kao što je prikazano.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Nakon dodavanja varijabli okruženja u datoteku ~/.bashrc, pronađite izvornu datoteku i provjerite Hadoop pokretanjem sljedećih naredbi.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

Konfiguriranje Hadoopa u CentOS 7

Moramo da konfigurišemo ispod Hadoop konfiguracione fajlove da bi se uklopili u vašu mašinu. U Hadoop-u, svaka usluga ima svoj vlastiti broj porta i vlastiti direktorij za pohranjivanje podataka.

  • Hadoop konfiguracijske datoteke – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Prvo, moramo ažurirati JAVA_HOME i Hadoop putanju u datoteci hadoop-env.sh kao što je prikazano .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Unesite sljedeći red na početak datoteke.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Zatim izmijenite datoteku core-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Zalijepite sljedeće između oznaka <configuration> kao što je prikazano.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Kreirajte donje direktorije u tecmint korisničkom kućnom direktoriju, koji će se koristiti za NN i DN pohranu.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Zatim izmijenite datoteku hdfs-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Zalijepite sljedeće između oznaka <configuration> kao što je prikazano.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Ponovo izmijenite datoteku mapred-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Zalijepite sljedeće između oznaka <configuration> kao što je prikazano.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Na kraju, izmijenite datoteku yarn-site.xml.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Zalijepite sljedeće između oznaka <configuration> kao što je prikazano.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

Formatiranje HDFS sistema datoteka preko NameNode

13. Prije pokretanja klastera, moramo formatirati Hadoop NN u našem lokalnom sistemu gdje je instaliran. Obično se to radi u početnoj fazi prije prvog pokretanja klastera.

Formatiranje NN će uzrokovati gubitak podataka u NN metastoreu, tako da moramo biti oprezniji, ne bismo trebali formatirati NN dok je klaster pokrenut osim ako to nije potrebno namjerno.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. Pokrenite NameNode demon i DataNode demon: (port 50070).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. Pokrenite ResourceManager demon i NodeManager demon: (port 8088).

sbin/start-yarn.sh

16. Za zaustavljanje svih usluga.

sbin/stop-dfs.sh
sbin/stop-dfs.sh
Sažetak

Sažetak
U ovom članku smo prošli kroz proces korak po korak za postavljanje Hadoop Pseudonode (Single Node) klastera. Ako imate osnovno znanje o Linuxu i slijedite ove korake, klaster će se UPORABITI za 40 minuta.

Ovo može biti vrlo korisno za početnike da počnu učiti i prakticirati Hadoop ili se ova vanilla verzija Hadoop-a može koristiti za razvojne svrhe. Ako želimo da imamo klaster u realnom vremenu, ili su nam potrebna najmanje 3 fizička servera ili moramo da obezbedimo Cloud za više servera.