使用 Spark 数据帧生成包含唯一字段和 XML 组合的 CSV 文件



我正在使用com.databricks.spark将XML读入Spark数据帧.xml并尝试生成csv文件作为输出。

我的输入如下所示

<id>1234</id>
<dtl>
    <name>harish</name>
    <age>21</age>
    <class>II</class> 
</dtl>

我的输出应该是一个csv文件,其中包含id和剩余的整个XML标签的组合,例如

id, xml
1234,<dtl><name>harish</name><age>21</age><class>II</class></dtl>

有没有办法实现上述格式的输出。

非常感谢

您的帮助。

  1. 创建一个普通的RDD,使用sc.textFile()将xml作为文本文件加载,而无需解析。
  2. 在正则表达式/xpath 的帮助下手动提取 id,并尝试使用从标签开头到标签结尾的字符串切片来对 RDD 字符串进行切片。
  3. 完成后,您将把你的数据放到地图中,比如(id,"xml")。

我希望这个战术解决方案能帮助你...

相关内容

  • 没有找到相关文章

最新更新