使用jq在tsv中输出具有出现频率的元素的唯一值



给定以下json,我如何创建一个tsv,它将输出在其中(新元素中(找到的值的频率?

{"_id":{"$someid":"545"},"new":"813 ROT","old":{"$someid":"5fe"}}
{"_id":{"$someid":"659889a"},"new":"9878 SU","old":{"$someid":"5bc"}}
{"_id":{"$someid":"986978754b"},"new":"813 ROT","old":{"$someid":"5bc1af"}}

期望输出:

813 ROT 2
9878 SU 1

我可以用.new提取值,但不知道如何将它们分组并创建tsv然后

我试过的:

def counter(stream):   reduce stream as $s ({}; .[$s|tostring] += 1);  counter(inputs | .new) | to_entries[] | {ItemId: (.key), Count: .value}

但输出:

{
"ItemId": "9878 SU",
"Count": 1
}
{
"ItemId": "813 ROT",
"Count": 1
}

我使用在ubuntu 16.04存储库中找到的jq版本

你可以试试这个jq过滤器:

jq -sr 'group_by(.new)|.[]|[.[0].new, length]|@tsv'
813 ROT 2
9878 SU 1

选项-s允许将文件的全部内容获取到数组中(将筛选器应用于全部内容(。

选项-r显示原始数据。

group_by函数将具有相同new密钥的所有对象分组到一个数组中。

.[0].new得到密钥new的值,length得到具有相同值的密钥的数目。

运算符@tsv格式化为制表符分隔的值。

最新更新