Kako instalirati i postaviti Apache Spark na Ubuntu/Debian


Apache Spark je distribuirani računarski okvir otvorenog koda koji je kreiran da pruži brže rezultate računanja. To je računarski mehanizam u memoriji, što znači da će se podaci obrađivati u memoriji.

Spark podržava različite API-je za streaming, obradu grafova, SQL, MLLib. Takođe podržava Java, Python, Scala i R kao preferirane jezike. Spark se uglavnom instalira u Hadoop klasterima, ali također možete instalirati i konfigurirati spark u samostalnom načinu rada.

U ovom članku ćemo vidjeti kako instalirati Apache Spark u Debian i Ubuntu distribucijama.

Instalirajte Javu i Scalu u Ubuntu

Da biste instalirali Apache Spark u Ubuntu, morate imati Javu i Scala instaliranu na vašoj mašini. Većina modernih distribucija dolazi sa standardno instaliranom Javom i to možete provjeriti pomoću sljedeće naredbe.

java -version

Ako nema izlaza, možete instalirati Javu koristeći naš članak o tome kako instalirati Javu na Ubuntu ili jednostavno pokrenite sljedeće naredbe za instalaciju Jave na Ubuntu i Debian distribucijama.

sudo apt update
sudo apt install default-jre
java -version

Zatim, možete instalirati Scalu iz apt spremišta tako što ćete pokrenuti sljedeće komande da potražite scalu i instalirate je.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

Da potvrdite instalaciju Scale, pokrenite sljedeću naredbu.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Instalirajte Apache Spark u Ubuntu

Sada idite na zvaničnu stranicu za preuzimanje Apache Sparka i uzmite najnoviju verziju (tj. 3.1.1) u vrijeme pisanja ovog članka. Alternativno, možete koristiti naredbu wget za preuzimanje datoteke direktno u terminal.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Sada otvorite svoj terminal i prebacite se na mjesto na kojem se nalazi vaša preuzeta datoteka i pokrenite sljedeću naredbu da izdvojite Apache Spark tar datoteku.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Konačno, premjestite izvučeni direktorij Spark u /opt direktorij.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurirajte varijable okruženja za Spark

Sada morate postaviti nekoliko varijabli okruženja u vašoj datoteci .profile prije nego što pokrenete Spark.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Da biste bili sigurni da su ove nove varijable okruženja dostupne unutar ljuske i dostupne Apache Spark-u, također je obavezno pokrenuti sljedeću naredbu da bi se nedavne promjene stavile na snagu.

source ~/.profile

Sve binarne datoteke vezane za iskre za pokretanje i zaustavljanje usluga nalaze se u folderu sbin.

ls -l /opt/spark

Pokrenite Apache Spark u Ubuntu

Pokrenite sljedeću naredbu da pokrenete Spark glavnu i slave uslugu.

start-master.sh
start-workers.sh spark://localhost:7077

Kada se usluga pokrene, idite u pretraživač i upišite sljedeću URL pristupnu iskriču stranicu. Na stranici možete vidjeti da su pokrenuli moj master i slave servis.

http://localhost:8080/
OR
http://127.0.0.1:8080

Također možete provjeriti da li spark-shell radi dobro pokretanjem naredbe spark-shell.

spark-shell

To je to za ovaj članak. Uskoro ćemo vas upoznati s još jednim zanimljivim člankom.