步骤1:复制和解压Spark安装包
解压文件:将Spark安装包解压到/opt/module目录中。
tar -zxvf /opt/software/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module
编辑profile文件:使用vi或nano编辑器打开/etc/profile文件。
vim /etc/profile
设置环境变量:在文件末尾添加Spark环境变量。
export SPARK_HOME=/opt/module/spark-3.1.1-bin-hadoop3.2 export PATH=$PATH:$SPARK_HOME/bin
使环境变量生效:运行以下命令使环境变量立即生效。
source /etc/profile
验证环境变量:在/opt目录下运行spark-submit --version命令,并截图。
cd /opt spark-submit --version
-----运行截图
(运行命令为:spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar)
以下是步骤3的详细解释:
1、提交作业:
使用spark-submit命令来提交作业。这个命令是用来启动Spark应用程序的。
–master yarn参数指定了作业应该以Yarn模式运行。这意味着Spark应用程序将使用Yarn来管理资源。
–class org.apache.spark.examples.SparkPi参数指定了包含应用程序主类的jar文件。在这个例子中,主类是org.apache.spark.examples.SparkPi,它是一个计算Pi值的示例程序。
$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar是包含示例程序的jar文件路径。
查看运行结果:
一旦作业提交,Yarn将负责启动必要的Spark驱动程序和执行器进程。
SparkPi程序将运行,并计算Pi的近似值。
程序运行完成后,会在控制台输出计算结果。通常,结果会包括Pi的近似值以及计算所需的时间。
spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar
运行结果