简介:在Python3.6中搭建PySpark开发环境,并验证基础功能。
安装依赖库
sudo pip install pyspark==2.4.8 py4j==0.10.7
进入Python环境
cd ~
python # 或 python3.6(确保指向Python3.6)
测试代码
from pyspark import SparkContext
sc = SparkContext('local[1]', 'test') # 本地单核模式
rdd = sc.parallelize([1, 2, 3, 4, 5])
print(rdd.collect()) # 输出 [1, 2, 3, 4, 5]
常见错误:
-
No module named 'pyspark'
原因:PySpark未正确安装或Python环境不匹配。
解决:-
检查Python版本:
python --version
(应为3.6)。 -
确认pip对应Python3.6:
pip -V
查看路径。 -
重新安装:
sudo pip3.6 install pyspark==2.4.8
。
-
-
Java版本不兼容
现象:启动SparkContext时报错。
解决:安装Java 8:sudo apt-get install openjdk-8-jdk
。
总结:
PySpark安装需严格匹配Python/Java版本。通过SparkContext
本地模式可快速验证环境,为分布式计算打下基础。