从dynamodb - aws glue pyspark加载数据框架



我正试图从dynamodb表中读取记录。我尝试过使用动态框架。因为我的表中有800万条记录,所以过滤时间太长了。无论如何,我不需要将800万条记录加载到数据帧中。而不是在动态框架中应用过滤器,我想知道是否有任何选项可以通过传递查询来加载数据帧。因此,很少的记录只加载到数据帧,它将更快地工作。

您可以通过在spark.sql()中传递查询来加载数据框,但在此之前,您必须在Dynamo DB表上运行AWS Glue crawler,以便您可以在AWSGlue catalog中获得与Dynamo DB表对应的表,然后您可以使用Glue Catalog中生成的这个表直接使用Spark dataframe读取数据。

相关内容

  • 没有找到相关文章

最新更新