我是Pentaho和Spoon的新手,我正在尝试处理来自本地Hadoop节点的文件,并在Spoon(Pentaho(中使用"Hadoop文件输入"项。问题是到目前为止我尝试的每个 URI 似乎都是不正确的。我不知道如何真正连接到Pentaho的HDFS。
为了清楚起见,正确的 URI 是:
hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
我知道这是正确的,因为我通过命令行对其进行了测试,并且它完美运行:
hdfs dfs -ls hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
因此,将环境字段设置为"静态",以下是我在 Spoon 中尝试过的一些 URI:
- hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
- hdfs://localhost:8020/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
- hdfs://localhost:9001
- hdfs://localhost:9001/user/data/prueba_concepto/
- hdfs://localhost:9001/user/data/prueba_concepto
- hdfs:///
我什至尝试了Garci García在这里给出的解决方案:Pentaho Hadoop文件输入 将端口设置为 8020 并使用以下 URI:
- hdfs://catalin:@localhost:8020/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
然后将其改回 9001 并尝试相同的技术:
- hdfs://catalin:@localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
但仍然没有任何效果...每次我按莫斯特拉尔菲切罗(s(...按钮(显示文件(,弹出一条错误消息,指出找不到该文件。
我在这里添加了一个"Hadoop文件输入"图像。
谢谢。
Okey,所以我实际上解决了这个问题。
我不得不从"查看"选项卡中添加新的Hadoop集群 ->右键单击Hadoop集群 -> New
在那里,我必须输入我的HDFS Hadoop配置:
- 存储:HDFS
- 主机名:本地主机
- 端口:9001(默认为 8020(
- 用户名: 卡塔林 密码
- :(无密码(
之后,如果您点击"测试"按钮,某些测试将失败。我通过将本地Hadoop配置文件($LOCAL_HADOOP_HOME/etc/hadoop/core-site.xml(中的所有配置属性复制到勺子的Hadoop配置文件中来解决第二个问题:
data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25/core-site.xml
之后,我不得不修改data-integration/plugins/pentaho-big-data-plugin/plugin.properties,并将属性"active.hadoop.configuration"设置为hdp25:
active.hadoop.configuration=hdp25
重新启动勺子,您就可以开始了。