小贝子编程

从dynamodb - aws glue pyspark加载数据框架

本文关键字：加载数据框架 pyspark glue dynamodb aws pyspark etl aws-glue
更新时间 : 2023-09-22
英文 : Loading dataframe from dynamodb - aws glue pyspark

我正试图从dynamodb表中读取记录。我尝试过使用动态框架。因为我的表中有800万条记录，所以过滤时间太长了。无论如何，我不需要将800万条记录加载到数据帧中。而不是在动态框架中应用过滤器，我想知道是否有任何选项可以通过传递查询来加载数据帧。因此，很少的记录只加载到数据帧，它将更快地工作。

您可以通过在spark.sql()中传递查询来加载数据框，但在此之前，您必须在Dynamo DB表上运行AWS Glue crawler，以便您可以在AWSGlue catalog中获得与Dynamo DB表对应的表，然后您可以使用Glue Catalog中生成的这个表直接使用Spark dataframe读取数据。

从dynamodb - aws glue pyspark加载数据框架

相关内容

最新更新

热门标签：