如何使用Java在Spark中加载多行JSON



我正在寻找一种使用 Java 将多行 JSON 加载到 Spark 中的方法。 Spark SQLContext具有加载 JSON 的方法,但它仅支持"每行一条记录"。 我有一个需要处理的多行 JSON 文件。

示例输入:JSON包含单词,定义和例句:

{
"one-armedbandit": 
    [
        {
            "function": "noun",
            "definition": "slot machine",
            "examples": 
            [
            ]
        }
    ],
...
}

Spark 摄取方法确实接受 json 行格式。您可以考虑在处理之前使用 json 处理器将数据转换为此格式。

我所做的是将JSON读入带有JSON处理器的POJO列表中,然后在SparkContext上调用parallelize以获取JavaRDD

相关内容

  • 没有找到相关文章

最新更新