我正在使用Pentaho Data Integration 7.1将一些本地文件复制到Hadoop 2.8.0群集。我在Pentaho上创建了Hadoop集群连接,并且正在使用Hadoop Copy Files步骤。我可以成功上传的文件,当我执行从GUI(spoon.sh)我的工作,我可以看到在日志下面一行:从厨房执行时,作业中的不同行为
Hadoop Copy Files - Processing row source File/folder source : [file:///home/etl/Desktop/users_full_20170620.csv] ... destination file/folder : [hdfs://hadoop:***@spark-master.cu:9000/value_iq]... wildcard : [null]
但是,当我尝试使用运行相同的转换kitchen.sh失败,我得到了以下错误:
Hadoop Copy Files - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Folder file:///value_iq/bin/kettle/data-integration_7.1/hdfs:/hadoop:[email protected]:9000/value_iq does not exist!
不知怎的,它加入其中kitchen.sh位于HDFS网址前面的路径,假设目的地环境是本地的。
这是我的Hadoop复制文件的步骤
这个bug的JIRA报告已创建的截图:http://jira.pentaho.com/browse/PDI-16443
谢谢,我创建了jira问题http://jira.pentaho.com/browse/PDI-16443 – Jose
也似乎首先你尝试复制错误配置的hadoop集群。 因此,请检查您的文件夹中是否存在名称为“hdfs:”的文件夹:///value_iq/bin/kettle/data-integration_7.1/ 如果存在,请将其删除。 – Sedos