如何在 Windows 中搭建Spark环境

参考链接: https://medium.com/big-data-engineering/how-to-install-apache-spark-2-x-in-your-pc-e2047246ffc3

安装JAVA

目前scala只支持 java 8 和 java 11,可以选择其中一个版本进行下载。

https://www.oracle.com/java/technologies/javase-jdk11-downloads.html

下载安装后在环境

JAVA_HOME = /path/to/java
PATH += %JAVA_HOME%\bin

Scala

到Scala官网下载 2.11.12版本的安装文件,目前Spark 2.4.5 版本只支持scala2.11。这是一个安装包,安装起来比较简单,按提示操作即可。

Spark

官网下载: spark-2.4.5-bin-hadoop2.7.tgz,解压到指定目录即可。注意Spark的路径中不能有空格和特殊字符,否则会报错。然后配置系统环境变量:

SPARK_HOME = D:\Spark\spark-xxx-bin-hadoop2.7
HADOOP_HOME = D:\Spark\spark-xxx-bin-hadoop2.7
PATH += %SPARK_HOME%\bin

下载: https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe
放到HADOOP_HOME目录的bin目录中,如果不下载此程序,使用中可能会报如下错误。

Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

安装完毕,可以使用Spark了


如果你对本文有任何疑问或建议,欢迎联系我。本博客所有文章除特别声明外,均为原创文章,未经授权请勿转载!

愉快地使用 Windows Terminal 上一篇
详解 Spark 中的 Bucketing 下一篇

 目录