尝试使用 SPARK 1.6(包装数组)从嵌套 JSON 收集值



我正在尝试转换数据帧中的 json 文件,但我被困在基于数组的字段中。 我正在使用Spark 1.6和Java。当我读取嵌套的 JSON 并转换为数据帧时,我可以读取一些字段,但是当我尝试输入特定路径时,会显示错误。

DataFrame df = spark.read().json(sc.wholeTextFiles("PATH").values());

我正在读取一个 json 文件。

df.select(col("orcamentos.itens")).printSchema();
root
|-- itens: array (nullable = true)
|    |-- element: array (containsNull = true)
|    |    |-- element: struct (containsNull = true)
|    |    |    |-- criticas: array (nullable = true)
|    |    |    |    |-- element: struct (containsNull = true)
|    |    |    |    |    |-- codigo: long (nullable = true)
|    |    |    |    |    |-- codigoCenario: string (nullable = true)
|    |    |    |    |    |-- codigodevolutiva: long (nullable = true)
|    |    |    |    |    |-- descricao: string (nullable = true)
|    |    |    |    |    |-- flagLiberacao: string (nullable = true)
|    |    |    |    |    |-- statusCenario: string (nullable = true)
|    |    |    |-- devolutivas: array (nullable = true)
|    |    |    |    |-- element: struct (containsNull = true)
|    |    |    |    |    |-- codigo: long (nullable = true)
|    |    |    |    |    |-- descricao: string (nullable = true)
|    |    |    |    |    |-- texto: string (nullable = true)
|    |    |    |    |    |-- tipo: struct (nullable = true)
|    |    |    |    |    |    |-- codigo: long (nullable = true)
|    |    |    |    |    |    |-- descricao: string (nullable = true)
|    |    |    |-- numeroItem: long (nullable = true)
|    |    |    |-- rastreador: struct (nullable = true)
|    |    |    |    |-- concessao: struct (nullable = true)
|    |    |    |    |    |-- codigo: long (nullable = true)
|    |    |    |    |    |-- descricao: string (nullable = true)
|    |    |    |    |-- dispositivo: struct (nullable = true)
|    |    |    |    |    |-- codigo: long (nullable = true)
|    |    |    |    |    |-- descricao: string (nullable = true)

我正在尝试使用以下方式打印字段"numeroItem":

df.select(col("orcamentos.itens.numeroItem")).show();

但是我收到以下错误:

Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'orcamentos.itens[numeroItem]' due to data type mismatch: argument 2 requires integral type, however, 'numeroItem' is of string type.;
at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:65)
at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$2.applyOrElse(CheckAnalysis.scala:57)

当我尝试仅打印上面的节点(numeroItem 的父亲(时,从数据帧返回了列,如下所示:

df.select(col("orcamentos.itens")).show();
+---------------------------------------+
|itens                                  |
+---------------------------------------+
|[WrappedArray([WrappedArray([5000,3,4,D|
+---------------------------------------+

如果此字段由包装数组组成,我如何使用它? 稍后,我将需要动态分解此字段/数组。

如果可以修改 json 输入,则可以执行以下操作:

在你的 json 文件中,你有一个大对象中的数组。 为了使 Spark 能够将数组视为数据帧中的单个行,您应该将数组作为根元素。

所以不是{"itens":[<element1>,...,<elementN>]},而是[<element1>, ..., <elementN>]

最新更新