我是一个新手,正在尝试阅读&尽可能多地研究。目前,我被困在这方面,我花了几天的时间来解决。我已经在3台机器(1个主人,2个奴隶)上成功设置了一个火花簇,并运行了一些示例。现在,我正在尝试编写一个Python应用程序,该应用程序将读取CSV文件,然后在JSON文件中将每一行分开,然后将它们全部上传到S3。这是我的问题:
-
我已将CSV转换为使用
SparkSession.read.csv()
激发数据框架,如何将此数据框架分为多行并将其转换为JSON?我已经读到Spark DataFrame具有TOJSON函数,但是应用于整个数据帧,那么我该如何在每个数据框架上而不是整个数据框架上使用thi函数? -
如何在应用程序中应用分布式系统,让我有2个奴隶和一个主人?还是我的应用程序会自动将作品分为较小的部分并分配给奴隶?
-
如何将转换后的JSON放到S3,一些示例代码指南将对我有帮助。
如果您能帮助我,我将非常感谢您的帮助。
- 要读取JSON文件,您可以使用sqlcontext.jsonfile()。您可以使用常规的SQL查询进行处理。您可以从更多信息中看到
- 火花在分区上起作用。您的数据将分为分区并在执行者上运行。这将根据您使用的模式来通过Spark采取。不确定您是否正在使用纱线。
- 在Python中,您可以使用BOTO3将数据保存到Amazon S3。它非常易于使用。在这里看