hadoop配置文件hadoop的各个组件均可利用xml文件进行配置。core-default.xml 文件用于配置Common组件的属性,hdfs-site.xml文件用于配置HDF属性,mapred-site.xml文件用于配置MapReduce属性,这些文件都放在conf子目录中。
注:docs子目录中还存放三个html文件,即core-default.html,hdfs-site.html,mapred-site.html它们保存各组件的默认属性设置
详细配置文件如下:
1、dfs.hosts 记录即将作为datanode加入集群的机器列表
2、mapred.hosts 记录即将作为tasktracker加入集群的机器列表
3、dfs.hosts.exclude mapred.hosts.exclude 分别包含待移除的机器列表
4、master 记录运行辅助namenode的机器列表
5、slave 记录运行datanode和tasktracker的机器列表
6、hadoop-env.sh 记录脚本要用的环境变量,以运行hadoop
7、core-site.xml hadoop core的配置项,例如hdfs和mapreduce常用的i/o设置等
8、hdfs-site.xml hadoop守护进程的配置项,包括namenode、辅助namenode和datanode等
9、mapred-site.xml mapreduce守护进程的配置项,包括jobtracker和tasktracker
10、hadoop-metrics.properties 控制metrics在hadoop上如何发布的属性
11、log4j.properties 系统日志文件、namenode审计日志、tasktracker子进程的任务日志的属性注:这些
文件都放在conf目录中。配置目录也可重新放在文件系统的其他地方(便于修改升级),但是守护进程启动时需要使用–config选项,以指向本地文件系统的某个目录。
hadoop运行模式独立模式(standalone或local mode):
无需运行任何守护进程,所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此该模式适宜用在开发阶段
伪分布模式(pseudo-distributed model):
Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。
全分布模式(fully distributed model):
Hadoop守护进程运行在一个集群上。
各模式最小属性集合在特定模式下运行hadoop需要关注两个因素:正确设置属性和启动hadoop守护进程
下表列出了配置各种模式所需要的最小属性集合。
组件名称 | 属性名称 | 独立模式 | 伪分布模式 | 全分布模式 | |
Common | fs.default.name | file:// | hdfs://localhost/ | hdfs://namenode | |
HDFS | dfs.replication | N/A | 1 | 3(默认) | |
MapReduce | mapred.job.tracker | local(默认) | localhost:8021 | jobtracker:8021 |