如何将 csv/txt 文件加载到 AWS Glue 作业中



我对 AWS Glue 有以下 2 个澄清,您能否澄清一下。因为我需要使用胶水作为我项目的一部分。

  1. 我想将 csv/txt 文件加载到 Glue 作业中以处理它。(就像我们在Spark中使用数据帧所做的那样(。这在胶水中可能吗?还是我们只需要使用爬虫将数据爬网到 Glue 表中,并像下面这样使用它们进行进一步处理?

    empdf = glueContext.create_dynamic_frame.from_catalog(
    database="emp",
    table_name="emp_json")
    
  2. 下面我使用 Spark 代码将文件加载到 Glue 中,但我得到了冗长的错误日志。我们可以直接按原样运行 Spark 或 PySpark 代码,而无需对 Glue 进行任何更改吗?

    import sys
    from pyspark.context import SparkContext
    from awsglue.context import GlueContext
    sc = SparkContext()
    glueContext = GlueContext(sc)
    spark = glueContext.spark_session
    job = Job(glueContext)
    job.init(args['JOB_NAME'], args)
    dfnew = spark.read.option("header","true").option("delimiter", ",").csv("C:inputsTEST.txt")
    dfnew.show(2)
    

可以使用 Glue 直接从 s3 加载数据:

sourceDyf = glueContext.create_dynamic_frame_from_options(
connection_type="s3",
format="csv",
connection_options={
"paths": ["s3://bucket/folder"]
},
format_options={
"withHeader": True,
"separator": ","
})

你也可以只用 Spark 来做到这一点(正如你已经尝试过的那样(:

sourceDf = spark.read
.option("header","true")
.option("delimiter", ",")
.csv("C:inputsTEST.txt") 

但是,在这种情况下,Glue 不保证它们提供适当的 Spark 阅读器。因此,如果您的错误与缺少 CSV 数据源有关,那么您应该通过将 --extra-jars 参数提供指向其位置的 s3 路径,将 spark-csv lib 添加到 Glue 作业中。

以下 2 个案例我测试工作正常:

将文件从 S3 加载到 Glue 中。

dfnew = glueContext.create_dynamic_frame_from_options("s3", {'paths': ["s3://MyBucket/path/"] }, format="csv" )
dfnew.show(2)

从粘附数据库和已通过粘附爬网程序生成的表加载数据。

DynFr = glueContext.create_dynamic_frame.from_catalog(database="test_db", table_name="test_table")

DynFr 是一个 DynamicFrame,所以如果我们想在 Glue 中使用 Spark 代码,那么我们需要将其转换为如下所示的普通数据帧。

df1 = DynFr.toDF()

相关内容

  • 没有找到相关文章

最新更新