将火花数据帧分为每行，然后转换为JSON -Python

我是一个新手，正在尝试阅读＆amp;尽可能多地研究。目前，我被困在这方面，我花了几天的时间来解决。我已经在3台机器（1个主人，2个奴隶）上成功设置了一个火花簇，并运行了一些示例。现在，我正在尝试编写一个Python应用程序，该应用程序将读取CSV文件，然后在JSON文件中将每一行分开，然后将它们全部上传到S3。这是我的问题：

我已将CSV转换为使用SparkSession.read.csv()激发数据框架，如何将此数据框架分为多行并将其转换为JSON？我已经读到Spark DataFrame具有TOJSON函数，但是应用于整个数据帧，那么我该如何在每个数据框架上而不是整个数据框架上使用thi函数？
如何在应用程序中应用分布式系统，让我有2个奴隶和一个主人？还是我的应用程序会自动将作品分为较小的部分并分配给奴隶？
如何将转换后的JSON放到S3，一些示例代码指南将对我有帮助。

如果您能帮助我，我将非常感谢您的帮助。

要读取JSON文件，您可以使用sqlcontext.jsonfile（）。您可以使用常规的SQL查询进行处理。您可以从更多信息中看到
火花在分区上起作用。您的数据将分为分区并在执行者上运行。这将根据您使用的模式来通过Spark采取。不确定您是否正在使用纱线。
在Python中，您可以使用BOTO3将数据保存到Amazon S3。它非常易于使用。在这里看

相关内容

最新更新

热门标签：