PySpark环境安装与基础测试

Za1uu

于 2025-06-09 16:11:35 发布

阅读量220

点赞数 3

CC 4.0 BY-SA版权

文章标签： python linux 开发语言

本文链接：https://blog.csdn.net/2401_85044794/article/details/148537057

简介：在Python3.6中搭建PySpark开发环境，并验证基础功能。

安装依赖库

sudo pip install pyspark==2.4.8 py4j==0.10.7

进入Python环境

cd ~
python  # 或 python3.6（确保指向Python3.6）

测试代码

from pyspark import SparkContext
sc = SparkContext('local[1]', 'test')  # 本地单核模式
rdd = sc.parallelize([1, 2, 3, 4, 5])
print(rdd.collect())  # 输出 [1, 2, 3, 4, 5]

常见错误：

No module named 'pyspark'
原因：PySpark未正确安装或Python环境不匹配。
解决：
1. 检查Python版本：python --version（应为3.6）。
2. 确认pip对应Python3.6：pip -V 查看路径。
3. 重新安装：sudo pip3.6 install pyspark==2.4.8。
Java版本不兼容
现象：启动SparkContext时报错。
解决：安装Java 8：sudo apt-get install openjdk-8-jdk。