Kako instalirati i konfigurirati Apache Hadoop na jednom čvoru u CentOS 7


Apache Hadoop je okvir otvorenog koda za distribuiranu pohranu velikih podataka i obradu podataka kroz kompjuterske klastere. Projekat se zasniva na sledećim komponentama:

  1. Hadoop Common – sadrži Java biblioteke i uslužne programe potrebne drugim Hadoop modulima.
  2. HDFS – Hadoop distribuirani sistem datoteka – skalabilni sistem datoteka zasnovan na Javi raspoređen na više čvorova.
  3. MapReduce – YARN okvir za paralelnu obradu velikih podataka.
  4. Hadoop YARN: Okvir za upravljanje resursima klastera.

Ovaj članak će vas voditi o tome kako možete instalirati Apache Hadoop na klaster jednog čvora u CentOS 7 (također radi za RHEL 7 i Fedora 23+ > verzije). Ova vrsta konfiguracije se također naziva Hadoop Pseudo-Distributed Mode.

Korak 1: Instalirajte Javu na CentOS 7

1. Prije nego što nastavite sa instalacijom Jave, prvo se prijavite sa root korisnikom ili korisnikom s root privilegijama, postavite ime vašeg računala sa sljedećom komandom.

hostnamectl set-hostname master

Također, dodajte novi zapis u hosts datoteci sa FQDN vašeg vlastitog računala kako biste ukazali na IP adresu vašeg sistema.

vi /etc/hosts

Dodajte red ispod:

192.168.1.41 master.hadoop.lan

Zamijenite gornje ime hosta i FQDN zapise svojim vlastitim postavkama.

2. Zatim idite na stranicu za preuzimanje Oracle Java i uzmite najnoviju verziju Java SE Development Kit 8 na svom sistemu uz pomoć curl naredba:

curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Nakon što se Java binarno preuzimanje završi, instalirajte paket izdavanjem donje naredbe:

rpm -Uvh jdk-8u92-linux-x64.rpm

Korak 2: Instalirajte Hadoop Framework u CentOS 7

4. Zatim kreirajte novi korisnički nalog na svom sistemu bez root ovlasti koji ćemo koristiti za Hadoop instalacijsku putanju i radno okruženje. Novi početni direktorij računa će se nalaziti u /opt/hadoop direktoriju.

useradd -d /opt/hadoop hadoop
passwd hadoop

5. U sljedećem koraku posjetite stranicu Apache Hadoop kako biste dobili link za najnoviju stabilnu verziju i preuzeli arhivu na svoj sistem.

curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Izvucite arhivu kopiju sadržaja direktorija na početnu putanju hadoop računa. Također, provjerite jeste li u skladu s tim promijenili dozvole za kopirane datoteke.

 tar xfz hadoop-2.7.2.tar.gz
cp -rf hadoop-2.7.2/* /opt/hadoop/
chown -R hadoop:hadoop /opt/hadoop/

7. Zatim se prijavite sa hadoop korisnikom i konfigurirajte Hadoop i Java Environment Variables na svom sistemu uređivanjem .bash_profile fajl.

su - hadoop
vi .bash_profile

Dodajte sljedeće redove na kraj datoteke:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Sada inicijalizirajte varijable okruženja i provjerite njihov status izdavanjem sljedećih naredbi:

source .bash_profile
echo $HADOOP_HOME
echo $JAVA_HOME

9. Konačno, konfigurirajte autentifikaciju zasnovanu na ssh ključu za hadoop račun tako što ćete pokrenuti donje naredbe (zamijenite ime hosta ili FQDN > prema naredbi ssh-copy-id u skladu s tim).

Također, ostavite passphrase popunjeno prazno kako biste se automatski prijavili putem ssh-a.

ssh-keygen -t rsa
ssh-copy-id master.hadoop.lan