Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上 自己测试)、伪分布式模式(和集群接轨 HDFS yarn,在一台服务器上执行)、完全分布式模式。
本地模式:(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时候也是在本地机器上运行)
伪分布式模式:伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务
完全分布式:完全分布式其实就是多台机器上分别启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。
在真实的企业环境中,服务器集群会使用到多台机器,共同配合,来构建一个完整的分布式文件系统。而在这样的分布式文件系统HDFS相关的守护进程也会分布在不同的机器上,例如:
软件 & 平台 | 备注 |
---|---|
宿主系统 | windows10 |
虚拟机软件、系统 | vmware17,centos7.5 |
虚拟机 | 主机名:node1, ip:192.168.149.111 主机名:node2 , ip:192.168.149.112 主机名:node3 , ip:192.168.149.113 |
hadoop版本 | hadoop-3.3.0-Centos7-64-with-snappy.tar.gz |
SSH远程连接工具 | xshell7 |
软件安装包上传路径 | /export/software |
软件安装路径 | /export/software/jdk 、 /export/software/hadoop |
jdk环境 | jdk-8u241-linux-x64 |
NameNode | DataNode | SecondaryNameNode | |
---|---|---|---|
hadoop1 | √ | √ | |
hadoop2 | √ | ||
hadoop3 | √ | √ |
如果没有ifconfig yum search ifconfig yum install net-tools.x86_64 yum -y install vim
# 三台虚拟机均操作 systemctl status firewalld # 查看防火墙状态 systemctl stop firewalld # 关闭防火墙 systemctl disable firewalld # 禁止使用防火墙
# 三台虚拟机均操作 vim/etc/sysconfig/network-scripts/ifcfg-ens32 IPADDR="192.168.149.111" NETMASK="255.255.255.0" GATEWAY="192.168.149.2" DNS1="114.114.114.114"
# 三台虚拟机均操作 # 1. 修改主机名 vim /etc/hostname node1 # 或者 hostnamectl --static set-hostname node1 # 2. 修改映射 vim /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168.149.111 node1 192.168.149.112 node2 192.168.149.113 node3
# ssh免密登录(只需要配置node1至node1、node2、node3即可) # 1. node1生成公钥私钥 (一路回车) ssh-keygen # 2. node1配置免密登录到node1 node2 node3 ssh-copy-id node1 ssh-copy-id node2 ssh-copy-id node3 sh # 如果失败,查看/root目录下的.ssh ls -la # 将已有的.ssh删除,重复上述操作 # 3. 进行验证 ssh node1 ssh node2 ssh node3 # 同时配置其余两台机器
# 集群时间同步 yum -y install ntpdate ntpdate ntp5.aliyun.com
# 1. 将jdk安装包上传到/export/software/jdk # 2. 解压jdk安装包 tar -xvf jdk-8u241-linux-x64.tar.gz # 3. 配置环境变量 vim /etc/profile export JAVA_HOME=/export/software/jdk/jdk1.8.0_241 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar # 4. 重新加载环境变量文件 source /etc/profile # 5. 查看jdk环境 java -version
# 1. 将hadoop安装包上传到/export/software/hadoop # 2. 解压hadoop tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz # 3 .配置环境变量 vim /etc/profile export HADOOP_HOME=/export/software/hadoop/hadoop-3.3.0 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile
配置文件位置: /$HADOOP_HOME/etc/hadoop
fs.defaultFS hdfs://node1:9820 hadoop.tmp.dir /export/software/hadoop/hadoop-3.3.0/tmp hadoop.http.staticuser.user root hadoop.proxyuser.root.hosts * hadoop.proxyuser.root.groups * fs.trash.interval 1440
dfs.replication 3 dfs.namenode.secondary.http-address node2:9868 dfs.namenode.http-address node1:9870
#文件最后添加 export JAVA_HOME=/export/software/jdk/jdk1.8.0_241 # Hadoop3中,需要添加如下配置,设置启动集群角色的用户是谁 export HDFS_NAMENODE_USER=root export HDFS_DATANODE_USER=root export HDFS_SECONDARYNAMENODE_USER=root export YARN_RESOURCEMANAGER_USER=root export YARN_NODEMANAGER_USER=root
node1 node2 node3
mapreduce.framework.name yarn mapreduce.jobhistory.address node1:10020 mapreduce.jobhistory.webapp.address node1:19888 yarn.app.mapreduce.am.env HADOOP_MAPRED_HOME=${HADOOP_HOME} mapreduce.map.env HADOOP_MAPRED_HOME=${HADOOP_HOME} mapreduce.reduce.env HADOOP_MAPRED_HOME=${HADOOP_HOME}
yarn.resourcemanager.hostname node1 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-check-enabled false yarn.log-aggregation-enable true yarn.log.server.url http://node1:19888/jobhistory/logs yarn.log-aggregation.retain-seconds 604800
(首次启动)格式化namenode
hdfs namenode -format
start-dfs.sh # 启动HDFS所有进程(NameNode、SecondaryNameNode、DataNode) stop-dfs.sh # 停止HDFS所有进程(NameNode、SecondaryNameNode、DataNode) hadoop-daemon.sh start namenode # 只开启NameNode hadoop-daemon.sh start secondarynamenode # 只开启SecondaryNameNode hadoop-daemon.sh start datanode # 只开启DataNode hadoop-daemon.sh stop namenode # 只关闭NameNode hadoop-daemon.sh stop secondarynamenode # 只关闭SecondaryNameNode hadoop-daemon.sh stop datanode # 只关闭DataNode start-all.sh # 启动所有服务 stop-all.sh # 关闭所有服务
jps # node1 6371 NameNode 7461 Jps 7094 NodeManager 6519 DataNode 6942 ResourceManager # node2 3617 DataNode 3938 Jps 3731 SecondaryNameNode 3815 NodeManager # node3 3594 Jps 3355 DataNode 3471 NodeManager
Web UI页面