如何在pyspark-scala中查找json对象数组的字符串长度



我在DataFrame中有一列格式为="[{jsonobject},{jsonobject}]"。这里的长度是2。我必须找到这个数组的长度,并将其存储在另一列中。

我只使用过pySpark,但Scala解决方案是类似的。假设列名为input:

from pyspark.sql import functions as f, types as t
json_schema = t.ArrayType(t.MapType(t.StringType(), t.StringType()))
df.select(f.size(f.from_json(df.input, json_schema)).alias("num_objects"))

最新更新