hadoop的分布集群和高可用

2023-10-05 10:48:41

什么是hadoop？

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问

Hadoop部署

主机	ip
server1	172.25.26.11
server2	172.25.26.12
server3	172.25.26.13

1.创建hadoop

[root@server1 ~]# useradd -u 800 hadoop
[root@server1 ~]# passwd hadoop

2.切换到hadoop用户，安装jdk

[root@server1 ~]# su - hadoop
[hadoop@server1 ~]$ ls
hadoop-3.0.3.tar.gz  jdk-8u181-linux-x64.tar.gz  zookeeper-3.4.9.tar.gz
[hadoop@server1 ~]$ tar zxf jdk-8u181-linux-x64.tar.gz 
[hadoop@server1 ~]$ ls
hadoop-3.0.3.tar.gz  jdk1.8.0_181  jdk-8u181-linux-x64.tar.gz  zookeeper-3.4.9.tar.gz
[hadoop@server1 ~]$ ln -s jdk1.8.0_181 java
[hadoop@server1 ~]$ ls
hadoop-3.0.3.tar.gz  jdk1.8.0_181                zookeeper-3.4.9.tar.gz
java                 jdk-8u181-linux-x64.tar.gz
[hadoop@server1 ~]$ cd java
[hadoop@server1 java]$ ls
bin             jre      README.html                         THIRDPARTYLICENSEREADME.txt
COPYRIGHT       lib      release
include         LICENSE  src.zip
javafx-src.zip  man      THIRDPARTYLICENSEREADME-JAVAFX.txt

解压jdk，做软连接。

[hadoop@server1 ~]$ vim .bash_profile
10 PATH=$PATH:$HOME/bin:/home/hadoop/java/bin
[hadoop@server1 ~]$ jps 
1054 Jps

修改环境变量。
3.安装配置hadoop

[hadoop@server1 ~]$ tar zxf hadoop-3.0.3.tar.gz 
[hadoop@server1 ~]$ cd hadoop-3.0.3/etc/hadoop/
[hadoop@server1 hadoop]$ vim hadoop-env.sh 54 export JAVA_HOME=/home/hadoop/java

在这里插入图片描述

[hadoop@server1 ~]$ cd hadoop-3.0.3
[hadoop@server1 hadoop-3.0.3]$ mkdir input
[hadoop@server1 hadoop-3.0.3]$ cp etc/hadoop/*.xml input/
[hadoop@server1 hadoop-3.0.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce \-examples-3.0.3.jar grep input output 'dfs[a-z.]+'

在这里插入图片描述

[hadoop@server1 hadoop-3.0.3]$ cd output/
[hadoop@server1 output]$ ls
part-r-00000  _SUCCESS
[hadoop@server1 output]$ cat *
1	dfsadmin

搭建伪分布集群

1.修改配置，配置Hadoop的核心属性

[hadoop@server1 hadoop-3.0.3]$ cd etc/hadoop/
[hadoop@server1 hadoop]$ vim core-site.xml 19 20         21                 fs.defaultFS22                 hdfs://172.25.26.11:900023         24

在这里插入图片描述

[hadoop@server1 hadoop]$ vim hdfs-site.xml19 20         21                 dfs.replication22                 123         24

在这里插入图片描述
2.设置免密登陆

[hadoop@server1 hadoop]$ ssh-keygen

在这里插入图片描述

[hadoop@server1 hadoop]$ ssh-copy-id 172.25.26.11

在这里插入图片描述
发送密钥。
4.启动hdf，格式化名称节点

[hadoop@server1 hadoop]$ pwd
/home/hadoop/hadoop-3.0.3/etc/hadoop
[hadoop@server1 hadoop]$ vim slaves

在这里插入图片描述

[hadoop@server1 hadoop-3.0.3]$ pwd
/home/hadoop/hadoop-3.0.3
[hadoop@server1 hadoop-3.0.3]$  bin/hdfs namenode -format

在这里插入图片描述

[hadoop@server1 hadoop-3.0.3]$ sbin/start-dfs.sh 
[hadoop@server1 hadoop-3.0.3]$ jps

在这里插入图片描述
在浏览器查看：

[hadoop@server1 hadoop-3.0.3]$  bin/hdfs dfs -mkdir /user
[hadoop@server1 hadoop-3.0.3]$ bin/hdfs dfs -mkdir /user/hadoop
[hadoop@server1 hadoop-3.0.3]$ bin/hdfs dfs -ls /user
[hadoop@server1 hadoop-3.0.3]$  bin/hdfs dfs -put input/

创建目录，将input目录内容上传。
在这里插入图片描述
点击utilities,在点击browse file system，查看内容。

[hadoop@server1 hadoop-3.0.3]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce- \
examples-3.0.3.jar grep input output 'dfs[a-z.]+'
[hadoop@server1 hadoop-3.0.3]$  bin/hdfs dfs -ls
[hadoop@server1 hadoop-3.0.3]$  bin/hdfs dfs -cat output/*
[hadoop@server1 hadoop-3.0.3]$  bin/hdfs dfs -get output

hadoop完全分布式集群部署

server1关闭服务，切换到超级用户
在这里插入图片描述

在server1，server2和servre3端安装nfs-utils：

[root@server1 ~]# yum install -y nfs-utils

[root@server1 ~]# vim /etc/exports 1 /home/hadoop *(rw,anonuid=800,anongid=800)

在这里插入图片描述

[root@server1 ~]# /etc/init.d/rpcbind start
[root@server1 ~]# /etc/init.d/nfs start

在这里插入图片描述
启动服务。

[root@server1 ~]# showmount -e 172.25.26.11

在这里插入图片描述
刷新挂载。
在server2和server3：

[root@server2 ~]# yum install -y nfs-utils
[root@server2 ~]# /etc/init.d/rpcbind start                                      
[root@server2 ~]# /etc/init.d/nfs start
[root@server2 ~]# useradd -u 800 hadoop
[root@server2 ~]# mount 172.25.26.11:/home/hadoop/ /home/hadoop/
[root@server2 ~]# df
[root@server2 ~]# su - hadoop
[hadoop@server2 ~]$ ls

安装nfs，启动服务，建立hadoop用户，挂载之后发现，server1hadoop用户家目录文件已经同步过来了。

在这里插入图片描述
测试：

[hadoop@server1 ~]$ ssh 172.25.26.12

在这里插入图片描述
在server1使用hadoop用户进行连接不需要密码。

[hadoop@server1 ~]$ ln -s hadoop-3.03 hadoop

做软链接。

[hadoop@server1 ~]$ cd hadoop/etc/hadoop/
[hadoop@server1 hadoop]$ vim hdfs-site.xml

在这里插入图片描述

[hadoop@server1 hadoop]$ vim slaves

在这里插入图片描述
设定从设备。

[hadoop@server1 ~]$ cd hadoop
[hadoop@server1 hadoop]$ bin/hdfs namenode -format
[hadoop@server1 hadoop]$ sbin/start-dfs.sh

初始化，并开启服务。

添加节点

在server4：

[root@server4 ~]# yum install nfs-utils -y

在这里插入图片描述

    [hadoop@server4 ~]$ cd hadoop/etc/hadoop/[hadoop@server4 hadoop]$ vim slaves

在这里插入图片描述

    [hadoop@server4 ~]$ cd hadoop[hadoop@server4 hadoop]$ sbin/hadoop-daemon.sh start datanode

开启数据节点

[hadoop@server4 hadoop]$ bin/hdfs dfsadmin -report

在这里插入图片描述
查看添加的节点server4.

用同样的方法，将server2和server3加入节点。

hadoop+zookeeper高可用集群

hdfs实现高可用：

主机	ip
server1	172.25.26.11
server2	172.25.26.12
server3	172.25.26.13
server4	172.25.26.14
server5	172.25.26.15

需要用到5个虚拟机。

[root@server5 ~]# yum install nfs-utils -y
[root@server5 ~]# /etc/init.d/rpcbind start 
[root@server5 ~]# /etc/init.d/nfs start
[root@server5 ~]# useradd -u 800 hadoop
[hadoop@server5 ~]$ mount 172.25.26.11:/home/hadoop/ /home/hadoop/

添加用户，开启服务。
在这里插入图片描述
和前面一样配置server5，可以正常连接server1的家目录。
在server1进行配置：

[root@server1 ~]# su - hadoop 
[hadoop@server1 ~]$ tar zxf zookeeper-3.4.9.tar.gz 
[hadoop@server1 ~]$ cd zookeeper-3.4.9/conf
[hadoop@server1 conf]$ cp zoo_sample.cfg zoo.cfg

  1 tickTime=20002 initLimit=103 syncLimit=54 dataDir=/tmp/zookeeper5 clientPort=21816 server.2=172.25.26.12:2888:38887 server.3=172.25.26.13:2888:38888 server.4=172.25.26.14:2888:3888

修改配置文件，将server2，server3，server4写入集群。因为5台主机都使用nfs文件系统，所以几台主机的配置是一样的。在这里插入图片描述
删除server2上tmp目录的文件，建立zookeeper目录，并创建myid文件，写入一个数字，范围0～255。同样的在server3和server4也进行一样的操作。
在server2，server3，server4节点启动服务：

[hadoop@server4 ~]$ cd zookeeper-3.4.9
[hadoop@server4 zookeeper-3.4.9]$ bin/zkServer.sh start

在这里插入图片描述在3台主机进行一样的操作，其中会有两台主机的Mode是follower，一台是Leader。

在server1端进行配置：

[hadoop@server1 ~]$ cd hadoop/etc/hadoop/
[hadoop@server1 hadoop]$ vim core-site.xml

19 
20         
21                 fs.defaultFS
22                 hdfs://masters
23         
24         
25                 ha.zookeeper.quorum
26                 172.25.26.12:2181,172.25.26.13:2181,172.25.26.14:2181
27         
28

[hadoop@server1 hadoop]$ vim hdfs-site.xml

 19 20         21                 dfs.replication22                 323         24         25                 dfs.nameservices26                 masters27         28         29                 dfs.ha.namenodes.masters30                 h1,h231         32         33                 dfs.namenode.rpc-address.masters.h134                 172.25.26.11:900035         36         37                 dfs.namenode.http-address.masters.h138                 172.25.26.11:987039         40         41                 dfs.namenode.rpc-address.masters.h242                 172.25.26.15:900043         44         45                 dfs.namenode.http-address.masters.h246                 172.25.26.15:987047         48         49                 dfs.namenode.shared.edits.dir50                 qjournal://172.25.26.12:8485;172.25.26.13:8485;172.25.26.14:8485/masters51         52         53                 dfs.journalnode.edits.dir54                 /tmp/journaldata55         56                 dfs.ha.automatic-failover.enabled57                 true58         59         60                 dfs.client.failover.proxy.provider.masters61                 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider62         63         64                 dfs.ha.fencing.methods65                 66                 sshfence67                 shell(/bin/true)68                 69         70         71                 dfs.ha.fencing.ssh.private-key-files72                 /home/hadoop/.ssh/id_rsa73         74         75                 dfs.ha.fencing.ssh.connect-timeout76                 3000077         78

[hadoop@server1 hadoop]$ vim slaves

在这里插入图片描述
启动hdfs集群：
在三个 DN 上依次启动 zookeeper 集群（即server2，3，4）

[hadoop@server2 zookeeper-3.4.9]$ bin/zkServer.sh start

在三个 DN 上依次启动 journalnode(第一次启动 hdfs 必须先启动 journalnode)

[hadoop@server2 ~]$ cd hadoop
[hadoop@server2 hadoop]$ sbin/hadoop-daemon.sh start journalnode
[hadoop@server2 hadoop]$ jps

在这里插入图片描述
在server格式话hdfs集群：

[hadoop@server1 hadoop]$ bin/hdfs namenode -format
[hadoop@server1 hadoop]$ scp -r /tmp/hadoop-hadoop 172.25.26.15:/tmp

将文件复制到server5的tmp目录。

格式化 zookeeper (只需在 h1 上执行即可)

[hadoop@server1 hadoop]$ bin/hdfs zkfc -formatZK
[hadoop@server1 hadoop]$ sbin/start-dfs.sh

格式化后启动服务。
查看各个节点状态：

server1:
[hadoop@server1 hadoop]$ jps
12372 Jps
7050 DFSZKFailoverController
12332 NameNode
server2:
[hadoop@server2 hadoop]$ jps
1664 JournalNode
2325 Jps
1535 QuorumPeerMain
2212 DataNode
server3:
[hadoop@server3 hadoop]$ jps
1918 Jps
1651 JournalNode
1755 DataNode
1543 QuorumPeerMain
server4:
[hadoop@server4 hadoop]$ jps
2050 DataNode
1475 QuorumPeerMain
1600 JournalNode
2152 Jps
server5:
[hadoop@server5 dfs]$ jps
1306 DFSZKFailoverController
1511 Jps
1376 NameNode

测试：
在这里插入图片描述

在这里插入图片描述
server1为作为h1，server5为h2，此时server1为active，server5为stabdby，server5做为备用节点。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > hadoop的单机版测试
下一篇 > Hadoop用户启动hdf三个进程

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

hadoop的分布集群和高可用

什么是hadoop？

Hadoop部署

搭建伪分布集群

hadoop完全分布式集群部署

添加节点

hadoop+zookeeper高可用集群

相关文章