我正在使用com.databricks.spark将XML读入Spark数据帧.xml并尝试生成csv文件作为输出。
我的输入如下所示
<id>1234</id>
<dtl>
<name>harish</name>
<age>21</age>
<class>II</class>
</dtl>
我的输出应该是一个csv文件,其中包含id和剩余的整个XML标签的组合,例如
id, xml
1234,<dtl><name>harish</name><age>21</age><class>II</class></dtl>
有没有办法实现上述格式的输出。
非常感谢您的帮助。
- 创建一个普通的RDD,使用sc.textFile()将xml作为文本文件加载,而无需解析。
- 在正则表达式/xpath 的帮助下手动提取 id,并尝试使用从标签开头到标签结尾的字符串切片来对 RDD 字符串进行切片。
- 完成后,您将把你的数据放到地图中,比如(id,"xml")。
我希望这个战术解决方案能帮助你...