我正在尝试转换数据帧中的 json 文件,但我被困在基于数组的字段中。 我正在使用Spark 1.6和Java。当我读取嵌套的 JSON 并转换为数据帧时,我可以读取一些字段,但是当我尝试输入特定路径时,会显示错误。
DataFrame df = spark.read().json(sc.wholeTextFiles("PATH").values());
我正在读取一个 json 文件。
df.select(col("orcamentos.itens")).printSchema();
root
|-- itens: array (nullable = true)
| |-- element: array (containsNull = true)
| | |-- element: struct (containsNull = true)
| | | |-- criticas: array (nullable = true)
| | | | |-- element: struct (containsNull = true)
| | | | | |-- codigo: long (nullable = true)
| | | | | |-- codigoCenario: string (nullable = true)
| | | | | |-- codigodevolutiva: long (nullable = true)
| | | | | |-- descricao: string (nullable = true)
| | | | | |-- flagLiberacao: string (nullable = true)
| | | | | |-- statusCenario: string (nullable = true)
| | | |-- devolutivas: array (nullable = true)
| | | | |-- element: struct (containsNull = true)
| | | | | |-- codigo: long (nullable = true)
| | | | | |-- descricao: string (nullable = true)
| | | | | |-- texto: string (nullable = true)
| | | | | |-- tipo: struct (nullable = true)
| | | | | | |-- codigo: long (nullable = true)
| | | | | | |-- descricao: string (nullable = true)
| | | |-- numeroItem: long (nullable = true)
| | | |-- rastreador: struct (nullable = true)
| | | | |-- concessao: struct (nullable = true)
| | | | | |-- codigo: long (nullable = true)
| | | | | |-- descricao: string (nullable = true)
| | | | |-- dispositivo: struct (nullable = true)
| | | | | |-- codigo: long (nullable = true)
| | | | | |-- descricao: string (nullable = true)
我正在尝试使用以下方式打印字段"numeroItem":
df.select(col("orcamentos.itens.numeroItem")).show();
但是我收到以下错误:
Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'orcamentos.itens[numeroItem]' due to data type mismatch: argument 2 requires integral type, however, 'numeroItem' is of string type.;
at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:65)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:57)
当我尝试仅打印上面的节点(numeroItem 的父亲(时,从数据帧返回了列,如下所示:
df.select(col("orcamentos.itens")).show();
+---------------------------------------+
|itens |
+---------------------------------------+
|[WrappedArray([WrappedArray([5000,3,4,D|
+---------------------------------------+
如果此字段由包装数组组成,我如何使用它? 稍后,我将需要动态分解此字段/数组。
如果可以修改 json 输入,则可以执行以下操作:
在你的 json 文件中,你有一个大对象中的数组。 为了使 Spark 能够将数组视为数据帧中的单个行,您应该将数组作为根元素。
所以不是{"itens":[<element1>,...,<elementN>]}
,而是[<element1>, ..., <elementN>]