使用pyspark将parquet文件(在aws3中)存储到spark数据帧中



我正试图从s3存储桶中的特定文件夹中读取数据。此数据采用镶木地板格式。为此,我使用awswrangler:

import awswrangler as wr
# read data
data = wr.s3.read_parquet("s3://bucket-name/folder/with/parquet/files/", dataset = True)

这将返回熊猫数据帧:

client_id   center  client_lat  client_lng  inserted_at  matrix_updated
0700292081   BFDR    -23.6077    -46.6617   2021-04-19     2021-04-19   
7100067781   BFDR    -23.6077    -46.6617   2021-04-19     2021-04-19   
7100067787   BFDR    -23.6077    -46.6617   2021-04-19     2021-04-19     

但是,我希望将从s3存储桶中检索到的数据存储在spark数据帧中,而不是pandas数据帧。我试过这样做(这是我自己的问题(,但似乎不正确。

我想知道是否有任何方法可以使用awswrangler将这些数据存储到spark数据帧中。或者,如果你有其他选择,我想读一下。

我没有使用awswrangler。相反,我使用了我在github上发现的以下代码:

myAccessKey = 'your key' 
mySecretKey = 'your key'
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.amazonaws:aws-java-sdk:1.10.34,org.apache.hadoop:hadoop-aws:2.6.0 pyspark-shell'
import pyspark
sc = pyspark.SparkContext("local[*]")
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
hadoopConf = sc._jsc.hadoopConfiguration()
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", myAccessKey)
hadoopConf.set("fs.s3.awsSecretAccessKey", mySecretKey)
df = sqlContext.read.parquet("s3://bucket-name/path/")

相关内容

  • 没有找到相关文章

最新更新