hadoop01
作者:mmseoamin日期:2024-01-18

hadoop完全分布式搭建

1 完全分布式介绍

Hadoop运行模式包括:本地模式(计算的数据存在Linux本地,在一台服务器上 自己测试)、伪分布式模式(和集群接轨 HDFS yarn,在一台服务器上执行)、完全分布式模式。

本地模式:(hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR程序的时候也是在本地机器上运行)

伪分布式模式:伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。本质上就是利用一台服务器中多个java进程去模拟多个服务

完全分布式:完全分布式其实就是多台机器上分别启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上的以及运行MR程序也是在YARN上运行,计算后的结果也是输出到HDFS上。

在真实的企业环境中,服务器集群会使用到多台机器,共同配合,来构建一个完整的分布式文件系统。而在这样的分布式文件系统HDFS相关的守护进程也会分布在不同的机器上,例如:

  • NameNode守护进程,尽可能的单独部署在一台硬件性能较好的机器中。
  • 其他的每台机器上都会部署一个Datanode守护进程,一般的硬件环境即可。
  • SecondaryNameNode守护进程最好不要和NameNode在同一台机器上

    2 部署环境

    2.1 搭建环境&软件

    软件 & 平台备注
    宿主系统windows10
    虚拟机软件、系统vmware17,centos7.5
    虚拟机主机名:node1, ip:192.168.149.111
    主机名:node2 , ip:192.168.149.112
    主机名:node3 , ip:192.168.149.113
    hadoop版本hadoop-3.3.0-Centos7-64-with-snappy.tar.gz
    SSH远程连接工具xshell7
    软件安装包上传路径/export/software
    软件安装路径/export/software/jdk 、 /export/software/hadoop
    jdk环境jdk-8u241-linux-x64

    2.2 守护进程布局

    NameNodeDataNodeSecondaryNameNode
    hadoop1
    hadoop2
    hadoop3

    3 准备工作

    1. 三台机器的防火墙必须是关闭的.
    2. 确保三台机器的网络配置畅通(NAT模式,静态IP,主机名的配置)
    3. 确保/etc/hosts文件配置了ip和hostname的映射关系
    4. 确保配置了三台机器的免密登陆认证(克隆会更加方便)
    5. 确保所有机器时间同步
    6. jdk和hadoop的环境变量配置
    3.0 安装ifconfig 和vim
    如果没有ifconfig
    yum search ifconfig
    yum install net-tools.x86_64
    yum -y install vim
    
    3.1 关闭防火墙
    # 三台虚拟机均操作
    systemctl status firewalld  # 查看防火墙状态
    systemctl stop firewalld    # 关闭防火墙
    systemctl disable firewalld # 禁止使用防火墙
    
    3.2 配置静态ip
    # 三台虚拟机均操作
    vim/etc/sysconfig/network-scripts/ifcfg-ens32 
    IPADDR="192.168.149.111"
    NETMASK="255.255.255.0"
    GATEWAY="192.168.149.2"
    DNS1="114.114.114.114"
    
    3.3 配置hostname的映射关系
    # 三台虚拟机均操作
    # 1. 修改主机名
    vim /etc/hostname
    node1
    # 或者 
    hostnamectl --static set-hostname node1
    # 2. 修改映射
    vim /etc/hosts
    127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
    ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
    192.168.149.111 node1
    192.168.149.112 node2
    192.168.149.113 node3
    
    3.4 免密登陆认证
    # ssh免密登录(只需要配置node1至node1、node2、node3即可)
    	# 1. node1生成公钥私钥 (一路回车)
    	ssh-keygen  
    	
    	# 2. node1配置免密登录到node1 node2 node3
    	ssh-copy-id node1
    	ssh-copy-id node2
    	ssh-copy-id node3
    	sh
    	# 如果失败,查看/root目录下的.ssh
    	ls -la
    	# 将已有的.ssh删除,重复上述操作
    	
    	 # 3. 进行验证 
    	 ssh node1
    	 ssh node2
    	 ssh node3
    	 
    # 同时配置其余两台机器
    
    3.5 时间同步
    # 集群时间同步
    yum -y install ntpdate
    ntpdate ntp5.aliyun.com
    
    3.6 jdk环境变量配置
    # 1. 将jdk安装包上传到/export/software/jdk
    # 2. 解压jdk安装包
    tar -xvf  jdk-8u241-linux-x64.tar.gz 
    # 3. 配置环境变量
    vim /etc/profile
    	
    export JAVA_HOME=/export/software/jdk/jdk1.8.0_241
    export PATH=$PATH:$JAVA_HOME/bin
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    	
    # 4. 重新加载环境变量文件
    source /etc/profile
    # 5. 查看jdk环境
    java -version
    
    3.7 hadoop安装与环境变量配置
    # 1. 将hadoop安装包上传到/export/software/hadoop
    # 2. 解压hadoop
    tar -zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz 
    # 3 .配置环境变量
    vim /etc/profile
    export HADOOP_HOME=/export/software/hadoop/hadoop-3.3.0
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    source /etc/profile
    

    4 hadoop文件配置

    配置文件位置: /$HADOOP_HOME/etc/hadoop

    4.1 core-site.xml
    
    
    
    
        fs.defaultFS
        hdfs://node1:9820
    
    
    
        hadoop.tmp.dir
        /export/software/hadoop/hadoop-3.3.0/tmp
    
    
    
        hadoop.http.staticuser.user
        root
    
    
    
        hadoop.proxyuser.root.hosts
        *
    
    
        hadoop.proxyuser.root.groups
        *
    
    
    
        fs.trash.interval
        1440
    
    
    4.2 hdfs-site.xml
     
     
        dfs.replication 
        3
     
     
    
        dfs.namenode.secondary.http-address
        node2:9868
    
     
     
        dfs.namenode.http-address
        node1:9870 
    
    
    4.3 hadoop-env.sh
    #文件最后添加
    export JAVA_HOME=/export/software/jdk/jdk1.8.0_241
    # Hadoop3中,需要添加如下配置,设置启动集群角色的用户是谁
    export HDFS_NAMENODE_USER=root
    export HDFS_DATANODE_USER=root
    export HDFS_SECONDARYNAMENODE_USER=root
    export YARN_RESOURCEMANAGER_USER=root
    export YARN_NODEMANAGER_USER=root 
    
    4.4 workers
    node1
    node2
    node3
    
    4.5 mapred-site.xml
    
    
      mapreduce.framework.name
      yarn
    
    
    
      mapreduce.jobhistory.address
      node1:10020
    
     
    
    
      mapreduce.jobhistory.webapp.address
      node1:19888
    
    
      yarn.app.mapreduce.am.env
      HADOOP_MAPRED_HOME=${HADOOP_HOME}
    
    
      mapreduce.map.env
      HADOOP_MAPRED_HOME=${HADOOP_HOME}
    
    
      mapreduce.reduce.env
      HADOOP_MAPRED_HOME=${HADOOP_HOME}
    
    
    4.6 yarn-site.xml
    
    
    	yarn.resourcemanager.hostname
    	node1
    
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
    
        yarn.nodemanager.pmem-check-enabled
        false
    
    
    
        yarn.nodemanager.vmem-check-enabled
        false
    
    
    
      yarn.log-aggregation-enable
      true
    
    
    
        yarn.log.server.url
        http://node1:19888/jobhistory/logs
    
    
    
      yarn.log-aggregation.retain-seconds
      604800
    
    

    5 启动hadoop

    5.1 格式化namenode

    首次启动)格式化namenode

    hdfs namenode -format
    
    5.2 启动服务
    start-dfs.sh # 启动HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
    stop-dfs.sh # 停止HDFS所有进程(NameNode、SecondaryNameNode、DataNode)
    hadoop-daemon.sh start namenode # 只开启NameNode
    hadoop-daemon.sh start secondarynamenode # 只开启SecondaryNameNode
    hadoop-daemon.sh start datanode # 只开启DataNode
    hadoop-daemon.sh stop namenode # 只关闭NameNode
    hadoop-daemon.sh stop secondarynamenode # 只关闭SecondaryNameNode
    hadoop-daemon.sh stop datanode # 只关闭DataNode
    start-all.sh  # 启动所有服务
    stop-all.sh   # 关闭所有服务
    
    5.3 查看节点
    jps
    # node1
    6371 NameNode
    7461 Jps
    7094 NodeManager
    6519 DataNode
    6942 ResourceManager
    # node2
    3617 DataNode
    3938 Jps
    3731 SecondaryNameNode
    3815 NodeManager
    # node3
    3594 Jps
    3355 DataNode
    3471 NodeManager
    
    5.4 开启页面

    Web UI页面

    • HDFS集群:http://192.168.149.111:9870/
    • YARN集群:http://192.168.149.111:8088/