如何将XSD模式转换为Pyspark模式



我使用databricks/spark xml jar文件来读取xml文件。我无法将XSD模式文件转换为Pyspark模式。

我们可以使用将json模式转换为Pyspark模式

schema = StructType.fromJson(json_dict_or_list)

但我不能为XSD模式文件做这件事。我原以为我会读取XSD文件并将其转换为pyspark模式。

Databricks有一个spark xml库,其中包括一个漂亮的小XSDToSchema类(https://github.com/databricks/spark-xml/blob/master/src/main/scala/com/databricks/spark/xml/util/XSDToSchema.scala)。

如果你可以访问火花壳,你可以做:

spark-shell --packages com.databricks:spark-xml_2.12:0.16.0
import com.databricks.spark.xml.util.XSDToSchema
XSDToSchema.read(new java.io.File("test.xsd")).prettyJson

相关内容

  • 没有找到相关文章

最新更新