Pentaho的"Hadoop File Input"(Spoon)在尝试从HDFS读取文件时总是显示错误



我是Pentaho和Spoon的新手,我正在尝试处理来自本地Hadoop节点的文件,并在Spoon(Pentaho(中使用"Hadoop文件输入"项。问题是到目前为止我尝试的每个 URI 似乎都是不正确的。我不知道如何真正连接到Pentaho的HDFS。

为了清楚起见,正确的 URI 是:

hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv

我知道这是正确的,因为我通过命令行对其进行了测试,并且它完美运行:

hdfs dfs -ls hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv 

因此,将环境字段设置为"静态",以下是我在 Spoon 中尝试过的一些 URI:

  • hdfs://localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
  • hdfs://localhost:8020/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv
  • hdfs://localhost:9001
  • hdfs://localhost:9001/user/data/prueba_concepto/
  • hdfs://localhost:9001/user/data/prueba_concepto
  • hdfs:///

我什至尝试了Garci García在这里给出的解决方案:Pentaho Hadoop文件输入 将端口设置为 8020 并使用以下 URI:

  • hdfs://catalin:@localhost:8020/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv

然后将其改回 9001 并尝试相同的技术:

  • hdfs://catalin:@localhost:9001/user/data/prueba_concepto/ListadoProductos_2017_02_13-15_59_con_id.csv

但仍然没有任何效果...每次我按莫斯特拉尔菲切罗(s(...按钮(显示文件(,弹出一条错误消息,指出找不到该文件。

我在这里添加了一个"Hadoop文件输入"图像。

谢谢。

Okey,所以我实际上解决了这个问题。

我不得不从"查看"选项卡中添加新的Hadoop集群 ->右键单击Hadoop集群 -> New

在那里,我必须输入我的HDFS Hadoop配置:

  • 存储:HDFS
  • 主机名:本地主机
  • 端口:9001(默认为 8020(
  • 用户名: 卡塔林
  • 密码
  • :(无密码(

之后,如果您点击"测试"按钮,某些测试将失败。我通过将本地Hadoop配置文件($LOCAL_HADOOP_HOME/etc/hadoop/core-site.xml(中的所有配置属性复制到勺子的Hadoop配置文件中来解决第二个问题:

data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25/core-site.xml

之后,我不得不修改data-integration/plugins/pentaho-big-data-plugin/plugin.properties,并将属性"active.hadoop.configuration"设置为hdp25:

active.hadoop.configuration=hdp25

重新启动勺子,您就可以开始了。

最新更新