查询Parquet记录中的嵌套数组



我正在尝试不同的方法来查询记录数组中的记录,并将完整的Row显示为输出。

我不知道哪个嵌套对象有String"pg"。但我想查询特定的对象。对象是否具有"pg"。如果"pg"存在,那么我想显示完整的一行。如何在不指定对象索引的情况下对嵌套对象编写"spark-sql查询"。所以我不想使用儿童索引。name

我的Avro唱片:

{
"name": "Parent",
"type":"record",
"fields":[
    {"name": "firstname", "type": "string"},
    {
        "name":"children",
        "type":{
            "type": "array",
            "items":{
                        "name":"child",
                        "type":"record",
                        "fields":[
                            {"name":"name", "type":"string"}
                        ]
                    }
            }
    }
]
}

我使用Spark SQL上下文来查询正在读取的数据帧。所以如果输入是

Row no   Firstname Children.name
    1    John       Max
                    Pg
    2    Bru        huna
                    aman

输出应该返回poq1,因为它有一行children.name的一个对象是pg.

val results = sqlc.sql("SELECT firstname, children.name FROM nestedread where children.name = 'pg'")
results.foreach(x=> println(x(0), x(1).toString))

上面的查询不起作用。但当我查询children[1].name.时,它就起作用了

我还想知道,如果我能过滤一组记录,然后爆炸。而不是先分解并创建大量行,然后进行筛选

似乎可以使用

org.apache.spark.sql.functions.explode(e: Column): Column

例如,在我的项目(在java中)中,我嵌套了如下json:

{
    "error": [],
    "trajet": [
        {
            "something": "value"
        }
    ],
    "infos": [
        {
            "something": "value"
        }
    ],
    "timeseries": [
        {
            "something_0": "value_0",
            "something_1": "value_1",
            ...
            "something_n": "value_n"
        }
    ]
}

我想分析"时间序列"中的数据,所以我做了:

DataFrame ts = jsonDF.select(org.apache.spark.sql.functions.explode(jsonDF.col("timeseries")).as("t"))
                     .select("t.something_0",
                             "t.something_1",
                             ...
                             "t.something_n");

我也是新手。希望这能给你一个提示。

解决了问题

我找到了一条穿过爆炸的路。

val results = sqlc.sql("SELECT firstname, child.name, FROM parent LATERAL VIEW explode(children) childTable AS child 

相关内容

  • 没有找到相关文章

最新更新