Kako instalirati i postaviti Apache Spark na Ubuntu/Debian
Apache Spark je distribuirani računarski okvir otvorenog koda koji je kreiran da pruži brže rezultate računanja. To je računarski mehanizam u memoriji, što znači da će se podaci obrađivati u memoriji.
Spark podržava različite API-je za streaming, obradu grafova, SQL, MLLib. Takođe podržava Java, Python, Scala i R kao preferirane jezike. Spark se uglavnom instalira u Hadoop klasterima, ali također možete instalirati i konfigurirati spark u samostalnom načinu rada.
U ovom članku ćemo vidjeti kako instalirati Apache Spark u Debian i Ubuntu distribucijama.
Instalirajte Javu i Scalu u Ubuntu
Da biste instalirali Apache Spark u Ubuntu, morate imati Javu i Scala instaliranu na vašoj mašini. Većina modernih distribucija dolazi sa standardno instaliranom Javom i to možete provjeriti pomoću sljedeće naredbe.
java -version
Ako nema izlaza, možete instalirati Javu koristeći naš članak o tome kako instalirati Javu na Ubuntu ili jednostavno pokrenite sljedeće naredbe za instalaciju Jave na Ubuntu i Debian distribucijama.
sudo apt update
sudo apt install default-jre
java -version
Zatim, možete instalirati Scalu iz apt spremišta tako što ćete pokrenuti sljedeće komande da potražite scalu i instalirate je.
sudo apt search scala ⇒ Search for the package
sudo apt install scala ⇒ Install the package
Da potvrdite instalaciju Scale, pokrenite sljedeću naredbu.
scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Instalirajte Apache Spark u Ubuntu
Sada idite na zvaničnu stranicu za preuzimanje Apache Sparka i uzmite najnoviju verziju (tj. 3.1.1) u vrijeme pisanja ovog članka. Alternativno, možete koristiti naredbu wget za preuzimanje datoteke direktno u terminal.
wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Sada otvorite svoj terminal i prebacite se na mjesto na kojem se nalazi vaša preuzeta datoteka i pokrenite sljedeću naredbu da izdvojite Apache Spark tar datoteku.
tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Konačno, premjestite izvučeni direktorij Spark u /opt direktorij.
sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigurirajte varijable okruženja za Spark
Sada morate postaviti nekoliko varijabli okruženja u vašoj datoteci .profile prije nego što pokrenete Spark.
echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Da biste bili sigurni da su ove nove varijable okruženja dostupne unutar ljuske i dostupne Apache Spark-u, također je obavezno pokrenuti sljedeću naredbu da bi se nedavne promjene stavile na snagu.
source ~/.profile
Sve binarne datoteke vezane za iskre za pokretanje i zaustavljanje usluga nalaze se u folderu sbin.
ls -l /opt/spark
Pokrenite Apache Spark u Ubuntu
Pokrenite sljedeću naredbu da pokrenete Spark glavnu i slave uslugu.
start-master.sh
start-workers.sh spark://localhost:7077
Kada se usluga pokrene, idite u pretraživač i upišite sljedeću URL pristupnu iskriču stranicu. Na stranici možete vidjeti da su pokrenuli moj master i slave servis.
http://localhost:8080/
OR
http://127.0.0.1:8080
Također možete provjeriti da li spark-shell radi dobro pokretanjem naredbe spark-shell.
spark-shell
To je to za ovaj članak. Uskoro ćemo vas upoznati s još jednim zanimljivim člankom.