如题,最近由于mysql实在卸载不干净的问题重装了一下虚拟机系统,导致之前配置好的环境没掉了,于是就重新安装了一下,顺便把hadoop安装到了3.2.2版本,但这样的话,之前找的教程有些不太适用,网上也没找到教程,最终查阅了官网文档,完成了安装,并记录一下过程,以方便他人。
系统版本为Ubuntu 20.04 LTS,hadoop版本为3.2.2
首先先安装ssh并配置ssh的无密码登录:
sudo apt-get install openssh-server #安装ssh
ssh localhost #此处需要输入密码,如果有提示的话输入yes
exit #退出刚才的 ssh localhost
cd ~/.ssh/ #如果没有该目录,先执行ssh localhost即可
ssh-keygen -t rsa #有提示的话都按回车就行
cat ./id_rsa.pub >> ./authorized_keys #加入授权
然后再输入ssh localhost
,无需密码即可进入的话即为配置成功。
接着就是安装java环境,这个网上教程很多,就不详述了。
下一步是下载hadoop 3.2.2 ,我选择了清华源来下载,并复制到虚拟机中的Downloads文件夹下。
然后将其解压至/usr/local下,即sudo tar -zxf ~/Downloads/hadoop-3.2.2.tar.gz -C /usr/local
然后进入/usr/local/,并将文件夹名改为hadoop:sudo mv ./hadoop-3.2.2/ ./hadoop
最后修改文件权限(我登录的用户为hadoop,请自行将命令中第一个hadoop改为你的用户名:sudo chown -R hadoop ./hadoop
这样就大功告成了,不过我们还可以检查一下又没有安装成功,输入下面两行命令,如果显示版本信息的话就为安装成功。
cd /usr/local/hadoop
./bin/hadoop version
安装完hadoop之后,就该配置伪分布式了,其实也非常简单,修改一下配置文件就行了。
首先我们找到/usr/local/hadoop/etc/hadoop/core-site.xml,将其中的
<configuration>
</configuration>
修改为
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
将相同目录下的hdfs-site.xml的configuration部分(同上)修改为
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
就完成伪分布式的配置了。
配置完后,我们执行一下NameNode的初始化:
cd /usr/local/hadoop
./bin/hdfs namenode -format
接着开启 NameNode 和 DataNode 守护进程:
cd /usr/local/hadoop
./sbin/start-dfs.sh
其中,若出现ssh提示,输入yes即可。
启动完成后,可以通过命令jps
来判断是否成功启动,若成功的话,则会显示“NameNode”、”DataNode” 和 “SecondaryNameNode”这三个进程。
成功启动后,还可以进入http://localhost:9870/ 来查看NameNode和Datanode信息,不过这就不是本篇教程所要涉及的部分了。