首页 > IT知识 > 大数据培训教程:Hadoop伪分布式搭建操作步骤指南

大数据培训教程:Hadoop伪分布式搭建操作步骤指南

2017年10月26日10:07:44来源:海文国际         752
分享到:
IT知识文章: 

Hadoop伪分布式搭建操作步骤指南

一、准备工作

在/opt/目录下创建文件夹modules,和softwares

修改操作权限(切换至root用户下)

chown-Rwxt:wxt/opt/

然后切换至普通用户

mkdirsoftwares

mkdirmodules

安装lrzsz(在linux里可代替ftp上传和下载。)

首先安装lrzsz

yum-yinstalllrzsz

上传文件,执行命令rz,会跳出文件选择窗口,选择好文件,点击确认即可。

rz

下载文件,执行命令sz

sz

二、Hadoop环境部署-JDK部分

1.

上传jdk至softwares

2.

解压jdk至modules

tar-zxvfjdk-7u67-linux-x64.tar.gz-C/opt/modules/

3.

修改环境变量

切换至root用户修改vi/etc/profile文件,配置jdk环境变量

#JAVA_HOME

exportJAVA_HOME=/opt/modules/jdk1.7.0_67

exportPATH=$PATH:$JAVA_HOME/bin

4.

source/etc/profile使文件生效

验证是否配置成功

java-version

javaversion"1.7.0_09-icedtea"

OpenJDKRuntimeEnvironment(rhel-2.3.4.1.el6_3-x86_64)

OpenJDK64-BitServerVM(build23.2-b09,mixedmode)

jps命令可以查看java进程

echo$JAVA_HOME

三、Hadoop伪分布式环境部署-Hadoop部分

1.

上传文件hadoop-2.5.0.tar.gz,至softwares

解压文件至modules

tar-zxvfhadoop-2.5.0.tar.gz-C/opt/modules/

2.

清理Hadoop的目录,将hadoop/share/doc目录删除,节省磁盘空间,通过这个命令查看df-h

3.

修改hadoop/etc/hadoop/hadoop-env.sh文件

修改hadoop/etc/hadoop/mapred-env.sh文件

修改hadoop/etc/hadoop/yarn-env.sh文件

指定Java安装路径

exportJAVA_HOME=/opt/modules/jdk1.7.0_67

4.

注意:

Hadoop中的四个核心模块对应四个默认配置文件

HDFS,Hadoop默认的文件系统,是文件系统的访问入口

Namenode,所在的机器9000端口是早期Hadoop1.x使用的,现在Hadoop2.x使用的是8020端口号用于节点直接内部通信,使用RPC通信机制

5.

修改hadoop/etc/hadoop/core-site.xml文件

<property>

<name>fs.defaultFS</name>

<!--bigdata-4为我的localhost名字-->

<value>hdfs://bigdata-4:8020</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/opt/modules/hadoop-2.5.0/data/tmp</value>

</property>

6.

注意:

/tmp表示临时存储目录,系统每次重启会按照脚本预先设置好的删除里面的文件重新自定义系统生成的文件路径,/tmp会被清空,无法保证数据文件安全性。

7.

修改hadoop/etc/hadoop/hdfs-site.xml文件

指定HDFS文件存储的副本数个数,默认是3个,这里是单台机器就设置为1,这个数字要小于datanode的节点数。

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

8.

修改hadoop/etc/hadoop/slaves文件

指定从节点的机器位置,添加主机名即可

bigdata-4

9.

格式化namenode

bin/hdfsnamenode-format

10.

启动命令

sbin/hadoop-daemon.shstartnamenode

sbin/hadoop-daemon.shstartdatanode

11.

查看HDFS外部UI界面

bigdata-04或者IP地址跟上50070端口号,外部通信httpdfs.namenode.http-address50070

http://bigdata-4:50070(如果windows本地没有配置hosts,需要配置)

如果不能正确打开页面,请检查防火墙是否关闭

切换至root用户,serviceiptablesstatus

关闭防火墙chkconfigiptablesoff

12.

测试HDFS环境

创建文件夹,HDFS中有用户主目录的概念,和Linux一样

bin/hdfsdfs-mkdir-pwxt_test/iuput

13.

上传文件到HDFS(随便找一个文件上传就行)

bin/hdfsdfs-put/opt/modules/hadoop-2.5.0/etc/hadoop/core-site.xmlwxt_test/input/core-site.xml

上传成功,HDFS外部UI界面,会有上传的文件显示

14.

读取HDFS的文件

bin/hdfsdfs-text/core-site.xml

终端会显示上传文件的内容。

15.

下载文件到本地(指定下载到哪里,同时可以重命名成get-site.xml)bin/hdfsdfs-get/core-site.xml/home/wxt/Desktop/get-site.xml然后你会看到这个文件,并且重命名于桌面。

Hadoop伪分布式搭建至此结束。

本文来源于36大数据,仅供个人研究、交流学习使用,不涉及商业盈利目的。如有版权问题,请联系本站管理员予以更改或删除。