我有一个文档,其中包含许多字段,其中一个是country
。有许多文档具有相同的country
.
例如,当我执行match query
或fuzzy
搜索country
并查询Belgium
时,它会返回与Belgium
国家/地区匹配的文档列表,但它们都有不同的分数。我相信这是因为 tdidf 的相似性和belgium
术语在其他文档等领域的存在。
我希望它在这种情况下返回相同的分数。我应该使用什么相似性?
更新
我有接下来的 6 个文档:
{country:"Austria", title: "house"}
{country:"Austria", title: "Austria village"}
{country: "Germany", title: "deutch hotel" }
{country:"Austria", title: ""}
{country: "USA", title: "Usa hotel" }
{country: "USA", title: "Usa another hotel" }
当我对国家/地区执行匹配查询时:
{
query: {match: {country: "Austria"}}
}
我揭示了下一个结果:
[ {
"_index" : "elasticdemo_docs",
"_type" : "doc",
"_id" : "1",
"_score" : 1.0, "_source" : {country:"Austria", title: "Austria village"}
}, {
"_index" : "elasticdemo_docs",
"_type" : "doc",
"_id" : "2",
"_score" : 0.30685282, "_source" : {country:"Austria", title: "house"}
}, {
"_index" : "elasticdemo_docs",
"_type" : "doc",
"_id" : "3",
"_score" : 0.30685282, "_source" : {country:"Austria", title: ""}
} ]
我希望收到所有 3 份文件的相同_score
,因为它们作为一个国家Austria
。我应该使用什么相似性?
似乎我发现了问题 - 它与以下方面有关:http://www.elasticsearch.org/blog/understanding-query-then-fetch-vs-dfs-query-then-fetch/
使用dfs_query_then_fetch
搜索类型后,我得到了预期的结果。