简记hadoop 3.2.2的安装与伪分布式的配置过程

发布于 2021-04-02  81 次阅读


如题,最近由于mysql实在卸载不干净的问题重装了一下虚拟机系统,导致之前配置好的环境没掉了,于是就重新安装了一下,顺便把hadoop安装到了3.2.2版本,但这样的话,之前找的教程有些不太适用,网上也没找到教程,最终查阅了官网文档,完成了安装,并记录一下过程,以方便他人。
系统版本为Ubuntu 20.04 LTS,hadoop版本为3.2.2
首先先安装ssh并配置ssh的无密码登录:

sudo apt-get install openssh-server     #安装ssh
ssh localhost                           #此处需要输入密码,如果有提示的话输入yes
exit                                    #退出刚才的 ssh localhost
cd ~/.ssh/                              #如果没有该目录,先执行ssh localhost即可
ssh-keygen -t rsa                       #有提示的话都按回车就行
cat ./id_rsa.pub >> ./authorized_keys   #加入授权

然后再输入ssh localhost,无需密码即可进入的话即为配置成功。
接着就是安装java环境,这个网上教程很多,就不详述了。
下一步是下载hadoop 3.2.2 ,我选择了清华源来下载,并复制到虚拟机中的Downloads文件夹下。
然后将其解压至/usr/local下,即sudo tar -zxf ~/Downloads/hadoop-3.2.2.tar.gz -C /usr/local
然后进入/usr/local/,并将文件夹名改为hadoop:sudo mv ./hadoop-3.2.2/ ./hadoop
最后修改文件权限(我登录的用户为hadoop,请自行将命令中第一个hadoop改为你的用户名:sudo chown -R hadoop ./hadoop
这样就大功告成了,不过我们还可以检查一下又没有安装成功,输入下面两行命令,如果显示版本信息的话就为安装成功。

cd /usr/local/hadoop
./bin/hadoop version

安装完hadoop之后,就该配置伪分布式了,其实也非常简单,修改一下配置文件就行了。
首先我们找到/usr/local/hadoop/etc/hadoop/core-site.xml,将其中的

<configuration>
</configuration>

修改为

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

将相同目录下的hdfs-site.xml的configuration部分(同上)修改为

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

就完成伪分布式的配置了。
配置完后,我们执行一下NameNode的初始化:

 cd /usr/local/hadoop
./bin/hdfs namenode -format

接着开启 NameNode 和 DataNode 守护进程:

cd /usr/local/hadoop
./sbin/start-dfs.sh

其中,若出现ssh提示,输入yes即可。
启动完成后,可以通过命令jps来判断是否成功启动,若成功的话,则会显示“NameNode”、”DataNode” 和 “SecondaryNameNode”这三个进程。
成功启动后,还可以进入http://localhost:9870/ 来查看NameNode和Datanode信息,不过这就不是本篇教程所要涉及的部分了。