尝试从 EC2 使用 Spark 读取文件列表时，没有用于方案"s3"的文件系统

我试图提供一个文件列表，供spark在需要时读取(这就是为什么我宁愿不使用boto或其他任何方法将所有文件预先下载到实例上，然后才将它们读取到spark"本地"中(。

os.environ['PYSPARK_SUBMIT_ARGS'] = "--master local[3] pyspark-shell"
spark = SparkSession.builder.getOrCreate()
spark.sparkContext._jsc.hadoopConfiguration().set('fs.s3.access.key', credentials['AccessKeyId'])
spark.sparkContext._jsc.hadoopConfiguration().set('fs.s3.access.key', credentials['SecretAccessKey'])
spark.read.json(['s3://url/3521.gz', 's3://url/2734.gz'])

不知道local[3]是关于什么的，但如果没有这个--master标志，我得到了另一个异常：

Exception: Java gateway process exited before sending the driver its port number.

现在，我得到了这个：

Py4JJavaError: An error occurred while calling o37.json.
: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "s3"
...

不确定o37.json在这里指的是什么，但这可能无关紧要。

我看到了一堆类似问题的答案，建议添加一些标志，比如：

os.environ['PYSPARK_SUBMIT_ARGS'] = "--packages com.amazonaws:aws-java-sdk-pom:1.10.34,org.apache.hadoop:hadoop-aws:2.7.2 pyspark-shell"

我试着把它准备好并附加到另一个标志上，但它不起作用。

就像我在其他答案和互联网上看到的许多变体一样(有不同的包和版本(，例如：

os.environ['PYSPARK_SUBMIT_ARGS'] = '--master local[*] --jars spark-snowflake_2.12-2.8.4-spark_3.0.jar,postgresql-42.2.19.jar,mysql-connector-java-8.0.23.jar,hadoop-aws-3.2.2,aws-java-sdk-bundle-1.11.563.jar'

从S3读取文件的典型示例如下-

另外，你可以通过这个答案来确保极简主义的结构和必要的模块到位-java.io.IOException:方案s3 没有文件系统

阅读Parquet-S3

os.environ['PYSPARK_SUBMIT_ARGS'] = "--packages=com.amazonaws:aws-java-sdk-bundle:1.11.375,org.apache.hadoop:hadoop-aws:3.2.0 pyspark-shell"

sc = SparkContext.getOrCreate()
sql = SQLContext(sc)
hadoop_conf = sc._jsc.hadoopConfiguration()
config = configparser.ConfigParser()
config.read(os.path.expanduser("~/.aws/credentials"))
access_key = config.get("****", "aws_access_key_id")
secret_key = config.get("****", "aws_secret_access_key")
session_key = config.get("****", "aws_session_token")

hadoop_conf.set("fs.s3.aws.credentials.provider", "org.apache.hadoop.fs.s3.TemporaryAWSCredentialsProvider")
hadoop_conf.set("fs.s3a.access.key", access_key)
hadoop_conf.set("fs.s3a.secret.key", secret_key)
hadoop_conf.set("fs.s3a.session.token", session_key)
s3_path = "s3a://xxxx/yyyy/zzzz/"
sparkDF = sql.read.parquet(s3_path)

阅读Parquet-S3

相关内容

最新更新

热门标签：