我在DataFrame中有一列格式为="[{jsonobject},{jsonobject}]"。这里的长度是2。我必须找到这个数组的长度,并将其存储在另一列中。
我只使用过pySpark,但Scala解决方案是类似的。假设列名为input
:
from pyspark.sql import functions as f, types as t
json_schema = t.ArrayType(t.MapType(t.StringType(), t.StringType()))
df.select(f.size(f.from_json(df.input, json_schema)).alias("num_objects"))