Spark:由S3 aws-sdk读取或作为RDD读取



我在S3中有一些(5-10(个5KB以下的配置文件。可以使用AWS S3或RDD读取这些文件。所以,如果有10个文件,就会创建10个RDD对象,并使用collect()将其转换为列表。

既然RDD是分布式的,那么使用aws-s3 Java SDK而不是RDD进行阅读是否可取?

您应该始终倾向于将配置文件传递给spark驱动程序,然后使用python open命令本身或java读取它们(如果使用aws-glue(。

如果您使用的是EMR或本地集群,则可以使用boto3读取文件,然后将其传递给驱动程序或进行相应处理。

最新更新