如何以XML格式保存PySpark SQL DataFrame



我以镶木式格式存储了一个pyspark sql dataframe。现在,我也想将其保存为XML格式。我怎样才能做到这一点?直接将Pyspark SQL数据框架保存在XML中或将Parquet转换为XML的解决方案将对我有用。提前致谢。

我没有尝试过,但是此软件包可能会有所帮助。数据砖Spark-XML

这是Python的示例代码:

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write 
    .format('com.databricks.spark.xml') 
    .options(rowTag='book', rootTag='books') 
    .save('newbooks.xml')

您可以将每一行映射到带有XML分离器的字符串,然后将作为文本文件

保存

相关内容

  • 没有找到相关文章

最新更新