如何从本地 Hadoop 2.6 安装访问 S3/S3n

我正在尝试在本地计算机上重现 Amazon EMR 集群。为此，我已经安装了Hadoop的最新稳定版本 - 2.6.0。现在，我想访问 S3 存储桶，就像在 EMR 集群中一样。

我已经在核心站点中添加了 aws 凭证.xml：

<property>
  <name>fs.s3.awsAccessKeyId</name>
  <value>some id</value>
</property>
<property>
  <name>fs.s3n.awsAccessKeyId</name>
  <value>some id</value>
</property>
<property>
  <name>fs.s3.awsSecretAccessKey</name>
  <value>some key</value>
</property>
<property>
  <name>fs.s3n.awsSecretAccessKey</name>
  <value>some key</value>
</property>

注意：由于键上有一些斜杠，我用%2F转义了它们

如果我尝试列出存储桶的内容：

hadoop fs -ls s3://some-url/bucket/

我收到此错误：

ls：方案没有文件系统：s3

我再次编辑了核心站点.xml并添加了与 fs 相关的信息：

<property>
  <name>fs.s3.impl</name>
  <value>org.apache.hadoop.fs.s3.S3FileSystem</value>
</property>
<property>
  <name>fs.s3n.impl</name>
  <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
</property>

这次我收到一个不同的错误：

-ls: Fatal internal error
java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3.S3FileSystem not found
        at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2074)
        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2578)
        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2591)

不知何故，我怀疑 Yarn 发行版没有必要的罐子来读取 S3，但我不知道从哪里得到这些。任何朝这个方向的指示将不胜感激。

由于某种原因，默认情况下，包含 NativeS3FileSystem 实现的 jar hadoop-aws-[version].jar在 2.6 和 2.7 版本的 Hadoop classpath中不存在。因此，尝试通过在位于$HADOOP_HOME/etc/hadoop/hadoop-env.sh中的hadoop-env.sh中添加以下行来将其添加到类路径中：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HADOOP_HOME/share/hadoop/tools/lib/*

假设您使用的是Apache Hadoop 2.6或2.7

顺便说一下，你可以使用以下方法检查Hadoop的类路径：

bin/hadoop classpath

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell'
import pyspark
sc = pyspark.SparkContext("local[*]")
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
hadoopConf = sc._jsc.hadoopConfiguration()
myAccessKey = input() 
mySecretKey = input()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey)
hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey)
df = sqlContext.read.parquet("s3://myBucket/myKey")

@Ashrith的答案对我有用，但有一个修改：在 Ubuntu 上运行 v2.6 时，我必须使用 $HADOOP_PREFIX 而不是$HADOOP_HOME。也许这是因为听起来$HADOOP_HOME被弃用了？

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:${HADOOP_PREFIX}/share/hadoop/tools/lib/*

话虽如此，在通过 Homebrew 安装 v2.6 的 Mac 上，两者都不适合我。在这种情况下，我正在使用这个极其笨拙的导出：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(brew --prefix hadoop)/libexec/share/hadoop/tools/lib/*

为了解决这个问题，我尝试了上述所有方法，但失败了（无论如何对于我的环境）。

但是，我能够通过将上面提到的两个罐子从工具目录复制到 common/lib 中来使其工作。

之后工作正常。

如果您

使用的是 HDP 2.x 或更高版本，则可以尝试在 Ambari 的 MapReduce2 配置设置中修改以下属性。

mapreduce.application.classpath

将以下值追加到现有字符串的末尾：

/usr/hdp/

${hdp.version}/hadoop-mapreduce/*

相关内容

最新更新

热门标签：