hadoop 伪分布式集群搭建
时间: 2025-05-21 20:38:44 浏览: 21
### Hadoop伪分布式集群搭建教程
Hadoop 是一种用于处理大规模数据集的开源框架,支持在廉价硬件组成的大型集群上运行应用程序。对于初学者来说,可以通过构建伪分布式环境来熟悉其工作方式。
#### 1. 安装 Java 开发工具包 (JDK)
Hadoop 运行依赖于 JDK,因此需要先安装并配置好 JDK 的环境变量。以下是具体操作步骤:
- 下载适合系统的 JDK 版本,并完成安装。
- 编辑 `~/.bashrc` 文件以设置 JAVA_HOME 变量:
```bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
```
- 执行命令使更改生效:
```bash
source ~/.bashrc
```
验证是否成功安装 JDK 并将其加入环境变量中[^2]。
#### 2. 下载与解压 Hadoop 软件包
下载最新版本的 Hadoop 压缩包至本地计算机,并将其解压缩到指定位置。例如:
```bash
tar -zxvf hadoop-3.3.0.tar.gz -C /opt/
cd /opt/hadoop-3.3.0
```
#### 3. 修改核心配置文件 core-site.xml
此文件定义了客户端连接 NameNode 和 DataNode 的基本参数。进入 `/etc/hadoop/core-site.xml` 后添加如下内容:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
这一步骤指定了默认文件系统为 HDFS,并设定了名称节点监听端口为 9000[^1]。
#### 4. 配置 hdfs-site.xml 文件
该文件主要用于设定 HDFS 数据块大小以及副本数量等属性。同样位于 `/etc/hadoop/` 目录下,修改后的样例代码如下所示:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
这里我们将复制因子调整成 1 来适应单机环境下资源有限的情况[^3]。
#### 5. 设置 MapReduce 框架相关选项 mapred-site.xml
如果发现当前目录不存在名为mapred-site.xml模板,则可以从备份文件重命名得到它;然后按照下面的方式填写字段信息即可满足需求:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
#### 6. 更新 yarn-site.xml 中 YARN 参数
最后还需关注 ResourceManager 地址和服务启动顺序等问题,在相应部分追加以下条目实现自动化管理功能:
```xml
<configuration>
<!-- Reducer 获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- NodeManager 上内存总量限制,默认单位 MB-->
<property>
<name>yarn.scheduler.maximum-allocation-mb</name>
<value>8192</value>
</property>
...
</configuration>
```
#### 7. 初始化 HDFS 文件系统
执行初始化命令前需确保所有必要的改动都已经保存完毕,接着输入下列指令创建根目录结构:
```bash
bin/hdfs namenode -format
```
#### 8. 启动服务进程
依次开启各个组件对应的守护线程以便正常使用整个平台的各项能力:
```bash
sbin/start-dfs.sh
sbin/start-yarn.sh
```
至此已完成基于 Linux 系统之上部署简易版 Hadoop 单节点模拟群组的操作流程说明^。
```python
print("Congratulations! Your pseudo-distributed cluster has been set up successfully.")
```
阅读全文
相关推荐



















