保存
我以镶木式格式存储了一个pyspark sql dataframe。现在,我也想将其保存为XML格式。我怎样才能做到这一点?直接将Pyspark SQL数据框架保存在XML中或将Parquet转换为XML的解决方案将对我有用。提前致谢。
我没有尝试过,但是此软件包可能会有所帮助。数据砖Spark-XML
这是Python的示例代码:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='book').load('books.xml')
df.select("author", "_id").write
.format('com.databricks.spark.xml')
.options(rowTag='book', rootTag='books')
.save('newbooks.xml')
您可以将每一行映射到带有XML分离器的字符串,然后将作为文本文件