读取嵌套的 json pyspark 时"ambiguous reference"异常



我有一个嵌套的模式:

root
|-- fields: struct (nullable = true)
|    |-- configdata: struct (containsNull = true)
|    |    |-- field: string (nullable = true)
|    |    |-- type: string (nullable = true)
|    |    |-- value: string (nullable = true)
|    |-- configdata:struct (containsNull = true)
|    |    |-- field1: string (nullable = true)
|    |    |-- type1: string (nullable = true)
|    |    |-- value1: string (nullable = true)
|-- id: string (nullable = true)
|-- score: double (nullable = true)
|-- siteId: string (nullable = true)

我必须读取configdata:属性从这个json。但是当我试着做:

newDf= dataframe.select(sf.array(sf.expr("configdata"))

它是失败的异常:

对字段StructField(configdata)的歧义引用

正如你所看到的configData是结构类型,我必须从这个json中读取配置数据。使用spark dataFrame API在Pyspark中开发的代码。有人能帮帮我吗?

有两个结构体,没有明显的数组情况。这是模棱两可的,因为它们处于同一水平。不可能的。给第二个文件起一个新名字:'configdata1'。

相关内容

  • 没有找到相关文章

最新更新