使用ETL工具远程连接Hadoop

Posted by Donggu Ho on 2016-12-22

大家都很从容

经过非常从容的一段根本没管这货时期之后,今天奇思妙想之下能用 Pentaho 连上 Hadoop 了。其实是地址问题。我的 Pentaho 是 Windows 端,而 Hadoop 部署在阿里云

修改过程

关闭服务器的 dfs

1
$ $HADOOP_HOME/sbin/stop-dfs.sh

修改

  • 跳转到配置文件夹
1
$ cd $HADOOP_HOME/etc/hadoop
  • core-site.xml
1
2
3
4
5
6
7
8
9
10
11
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://<IP地址>:9000</value> # 修改localhost为ip地址
</property>
<!-- 指定运行时产生文件的存放目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
</property>
</configuration>
  • slave
1
总之把localhost修改为IP
  • hdfs-site.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<!-- 使用完整的绝对地址 -->
<value>file:/mnt/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<!-- 即使用完整的绝对地址 -->
<value>file:/mnt/hadoop/tmp/dfs/data</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>

启动dfs

1
$ $HADOOP_HOME/sbin/start-dfs.sh

此时就可以远程连接了。

从 Pentaho 连接

略【