小贝子编程

从带有分区的 S3 中读取 RC 文件 pyspark 2.0.0

本文关键字：RC 文件读取 pyspark 分区 S3 apache-spark amazon-s3 pyspark apache-spark-sql rc
更新时间 : 2023-09-08
英文 : Read RC File pyspark 2.0.0 from S3 with partitions

有没有办法将存储在 S3 中的分区的 RC 文件加载到 pyspark 数据帧 2.0.0 中

我已经找到了一种将 RCFiles（从 s3）加载到 pyspark 的方法。

from pyspark.sql import HiveContext
spark = SparkSession.builder.master("yarn").appName("elevateDailyJob").enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = HiveContext(sc)
sqlContext.sql("CREATE EXTERNAL TABLE table1(col1 string,col2 string,col3 string,)PARTITIONED BY (DAYSERIAL_NUMERIC string) STORED AS RCFILE LOCATION 's3://my-databucket/my_file_rc/'")
df = sqlContext.sql("select * from table1")

以上可以使用Spark-submit运行。注意：您需要在病房上启用对 EMR 版本 5.x 的 hive支持（就像我在代码的第二行中所做的那样。

从带有分区的 S3 中读取 RC 文件 pyspark 2.0.0

相关内容

最新更新

热门标签：