我正试图从dynamodb表中读取记录。我尝试过使用动态框架。因为我的表中有800万条记录,所以过滤时间太长了。无论如何,我不需要将800万条记录加载到数据帧中。而不是在动态框架中应用过滤器,我想知道是否有任何选项可以通过传递查询来加载数据帧。因此,很少的记录只加载到数据帧,它将更快地工作。
您可以通过在spark.sql()
中传递查询来加载数据框,但在此之前,您必须在Dynamo DB
表上运行AWS Glue crawler
,以便您可以在AWSGlue catalog
中获得与Dynamo DB
表对应的表,然后您可以使用Glue Catalog
中生成的这个表直接使用Spark dataframe读取数据。