无法使用spark从多行json字符串或JSONL字符串创建数据帧



我一直在尝试用jsonl字符串形成数据帧。我可以形成数据帧,但问题是只读取一行,而忽略其他行
以下是我在火花壳中尝试的东西

// This one is example multiline json.
val jsonEx = "{"name":"James"}{"name":"John"}{"name":"Jane"}"
// schema for it is 
val sch = new StructType().add("name", StringType)
val ds = Seq(jsonEx).toDS()
// 1st attempt -- using multiline and spark.json
spark.read.option("multiLine", true).schema(sch).json(ds).show
+-----+
| name|
+-----+
|James|
+-----+
// 2nd attempt -- using from_json
ds.withColumn("json", from_json(col("value"), sch)).select("json.*").show
+-----+
| name|
+-----+
|James|
+-----+
//3rd attempt -- using from_json in little different way
ds.select(from_json(col("value"), sch) as "json").select("json.*").show
+-----+
| name|
+-----+
|James|
+-----+
I even tried updating string as, 
val jsonEx = "{"name":"James"}n{"name":"John"}n{"name":"Jane"}"
and 
val jsonEx = "{"name":"James"}nr{"name":"John"}nr{"name":"Jane"}"
But the result was same.

有人知道我在这里错过了什么吗?

如果有人想知道为什么我不从文件而不是字符串中读取。我在resources路径中有一个jsonl配置文件。当我尝试使用getClass.getResource读取它时,scala会给我错误,而getClass.getResourceAsStream工作并且我能够读取数据。

val configPath = "/com/org/example/data_sources_config.jsonl"
for(line <- Source.fromInputStream(getClass.getResourceAsStream(configPath)).getLines) { print(line)}
{"name":"james"} ...
but when I do, 
for(line <- Source.fromFile(getClass.getResource(configPath).getPath).getLines) { print(line)}
java.io.FileNotFoundException: file:/Users/sachindoiphode/workspace/dap-links-datalake-jobs/target/dap-links-datalake-jobs-0.0.65.jar!/com/org/example/data_sources_config.jsonl (No such file or directory)

即使jsonEx是多行JSON。它仍然是一个元素。你需要从中提取行。

val ds = jsonEx.split("n").toSeq.toDS

要读取多行JSON文件,也许您可以尝试以下操作:

val path = "/com/org/example/data_sources_config.jsonl"
val source = Source.fromFile(getClass.getResource(path).getPath)
val content = source.getLines.mkString

如果你想从中创建一个数据帧,那么就执行content.split().toSq.toDF

相关内容

  • 没有找到相关文章

最新更新