MongoDB按相关性排序

我正在尝试从MongoDB获取节点上的文档。假设文档具有以下结构:

{ "_id": ObjectId, "title" : String, "tags" : Array<String> }

我想按照相关性对它们进行排序——所以当我在寻找有"蓝色"或"黄色"标签的文档时，我想先找到两个标签都有的文档。到目前为止，我通过谷歌管理，尝试和错误:

var tags = [ "yellow", "blue" ];
db.collection('files').aggregate([
    { $project : { tags: 1 } },
    { $unwind : "$tags" },
    { $match : { "tags": { "$in": tags } } },
    { $group : { _id: "$_id", relevance: { $sum:1 } } },
    { $sort : { relevance : -1 } },
], function(err, success) {
    console.log(success);
});

它工作得很好，我得到了id的排序集合:

[{"_id":"5371355045002fc820a09566","relevance":2},{"_id":"53712fc6c8fcd124216de6cd","relevance":2},{"_id":"5371302ebd4725dc1b908316","relevance":1}]

现在我会做另一个查询，并要求具有这些id的文档-但这是我的问题:可以在一个查询中完成吗?

是的，当您实际在_id上分组时，您可以像往常一样，然后该值本质上相当于整个文档。因此，只需将整个文档存储在_id字段下即可。

你有几个方法来这取决于你的MongoDB版本，在MongoDB 2.6之前的版本，你必须在初始 $project 阶段指定整个文档结构(可以选择在 $match 这通常是一个好主意)在你的管道之前，你实际操作文档:

var tags = ["yellow","blue"];
db.collection.aggregate([
    { "$project" : { 
        "_id": {
            "_id": "$_id",
            "title": "$title",
            "tags": "$tags"
        },
        "tags": 1 
    }},
    { "$unwind": "$tags" },
    { "$match": { "tags": { "$in": tags } } },
    { "$group": { "_id": "$_id", "relevance": { "$sum":1 } } },
    { "$sort": { "relevance" : -1 } },
    { "$project": {
        _id: "$_id._id",
        "title": "$_id.title",
        "tags": "$_id.tags"
    }}
])

当然，在管道的最后，您从_id字段中提取信息，以便返回原始结构。这是可选的，但您通常需要这样做。

对于MongoDB 2.6及以上版本，管道阶段有一个变量可用，该变量保存管道阶段的文档结构，称为 $$ROOT ，您可以访问它作为上述形式的一种快捷方式，如:

var tags = ["yellow","blue"];
db.collection.aggregate([
    { "$project" : { 
        "_id": "$$ROOT",
        "tags": 1 
    }},
    { "$unwind": "$tags" },
    { "$match": { "tags": { "$in": tags } } },
    { "$group": { "_id": "$_id", "relevance": { "$sum":1 } } },
    { "$sort": { "relevance" : -1 } },
    { "$project": {
        "_id": "$_id._id",
        "title": "$_id.title",
        "tags": "$_id.tags"
    }}
])

请记住，为了恢复文档，您仍然需要指定所有必需的字段。

我要注意的是，正如前面提到的，在这种情况下，当您使用匹配条件"过滤"文档时，您实际上应该在管道的"头部"使用 $match 语句进行过滤。这是聚合框架可以选择索引以优化查询的唯一地方，它还减少了不符合条件的文档数量(假设不是所有文档都带有"黄色"或"蓝色"标记)，这些文档将经过剩余的管道阶段:

db.collection.aggregate([
    { "$match": { "tags": { "$in": tags } } },
    { "$project" : { 
        "_id": {
            "_id": "$_id",
            "title": "$title",
            "tags": "$tags"
        },
        "tags": 1 
    }},
    { "$unwind": "$tags" },
    { "$match": { "tags": { "$in": tags } } },
    { "$group": { "_id": "$_id", "relevance": { "$sum":1 } } },
    { "$sort": { "relevance" : -1 } },
    { "$project": {
        _id: "$_id._id",
        "title": "$_id.title",
        "tags": "$_id.tags"
    }}
])

无论如何，这通常应该比尝试执行另一个查询更有效，因为另一个查询当然不会像您所做的那样保持排序顺序。

相关内容

最新更新

热门标签：