我正在寻找一种使用 Java 将多行 JSON 加载到 Spark 中的方法。 Spark SQLContext
具有加载 JSON 的方法,但它仅支持"每行一条记录"。 我有一个需要处理的多行 JSON 文件。
示例输入:JSON包含单词,定义和例句:
{
"one-armedbandit":
[
{
"function": "noun",
"definition": "slot machine",
"examples":
[
]
}
],
...
}
Spark 摄取方法确实接受 json 行格式。您可以考虑在处理之前使用 json 处理器将数据转换为此格式。
我所做的是将JSON读入带有JSON处理器的POJO列表中,然后在SparkContext
上调用parallelize
以获取JavaRDD
。