从带有分区的 S3 中读取 RC 文件 pyspark 2.0.0



有没有办法将存储在 S3 中的分区的 RC 文件加载到 pyspark 数据帧 2.0.0 中

我已经找到了一种将 RCFiles(从 s3)加载到 pyspark 的方法。

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'")
df = sqlContext.sql("select * from table1")

以上可以使用Spark-submit运行。注意:您需要在病房上启用对 EMR 版本 5.x 的 hive支持(就像我在代码的第二行中所做的那样。

最新更新