我有一个嵌套的模式:
root
|-- fields: struct (nullable = true)
| |-- configdata: struct (containsNull = true)
| | |-- field: string (nullable = true)
| | |-- type: string (nullable = true)
| | |-- value: string (nullable = true)
| |-- configdata:struct (containsNull = true)
| | |-- field1: string (nullable = true)
| | |-- type1: string (nullable = true)
| | |-- value1: string (nullable = true)
|-- id: string (nullable = true)
|-- score: double (nullable = true)
|-- siteId: string (nullable = true)
我必须读取configdata:属性从这个json。但是当我试着做:
newDf= dataframe.select(sf.array(sf.expr("configdata"))
它是失败的异常:
对字段StructField(configdata)的歧义引用
正如你所看到的configData是结构类型,我必须从这个json中读取配置数据。使用spark dataFrame API在Pyspark中开发的代码。有人能帮帮我吗?
有两个结构体,没有明显的数组情况。这是模棱两可的,因为它们处于同一水平。不可能的。给第二个文件起一个新名字:'configdata1'。