亚马逊网络服务电子病历文件系统

我正试图在AWS EMR集群上运行作业。我遇到的问题如下：

aws java.io.io异常：方案没有文件系统：hdfs

我不知道我的问题到底在哪里（在我的java jar作业或作业的配置中）

在我的S3存储桶中，我创建了一个文件夹（输入），并在其中放入了一堆包含我的数据的文件。然后在参数Im中给出输入文件夹的路径，然后使用与FileInputPath.getInputPath（args[0]）相同的路径。

我的问题是——首先，作业会抓取输入文件夹中的所有文件并对其进行处理，还是我必须提供每个文件的所有路径？

第二个问题-如何解决上述异常？

感谢

将输入文件保存在S3中。例如s3://mybucket/input/把你所有要按下的文件都放在我的bucket下的输入文件夹中。

在你的地图减少使用代码如下

FileInputFormat.addInputPath(job,"s3n://mybucket/input/")

这将自动处理输入文件夹下的所有文件。

相关内容