我正试图在我存储在Amazon s3上的桶中的文本文件上运行mapreduce WordCount作业。我已经为mapreduce框架设置了与Amazon通信所需的所有必要的身份验证,但是我仍然在运行这个错误。知道为什么会这样吗?
13/01/20 13:22:15 ERROR security.UserGroupInformation:
PriviledgedActionException as:root
cause:org.apache.hadoop.mapred.InvalidInputException: Input path does
not exist: s3://name-bucket/test.txt
Exception in thread "main"
org.apache.hadoop.mapred.InvalidInputException: Input path does not
exist: s3://name-bucket/test.txt
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989)
at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981)
at org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:416)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
at org.myorg.WordCount.main(WordCount.java:55)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:616)
at org.apache.hadoop.util.RunJar.main(RunJar.java:156)
您实际上必须将协议s3
替换为s3n
。这是两个不同的文件系统,具有不同的属性:
- s3n是s3本机文件系统:用于在s3上读写常规文件的本机文件系统。这个文件系统的优点是,您可以访问S3上使用其他工具编写的文件。相反,其他工具可以访问使用Hadoop编写的文件。缺点是S3对文件大小的限制为5GB。由于这个原因,它不适合替代HDFS(它支持非常大的文件)。
- s3是块文件系统: s3支持的基于块的文件系统。文件以块的形式存储,就像在HDFS中一样。这允许有效地实现重命名。该文件系统要求您为该文件系统专用一个存储桶——您不应该使用包含文件的现有存储桶,也不应该将其他文件写入同一存储桶。这个文件系统存储的文件可以大于5GB,但是不能与其他S3工具互操作。
(源)
在您的情况下,您的桶可能使用s3n
文件系统,我相信这是默认的,我使用的大多数桶也是s3n
。所以你应该使用s3n://name-bucket/test.txt