elasticsearchquery_string处理特殊字符

我的数据库与Elasticsearch同步，以优化我们的搜索结果并加快请求速度。

我在查询用户时遇到了一个问题，我想用一个查询热查找我的用户，它可以是名称、电话、ip的一部分。。。

我的实际查询是

query_string: { fields: ['id', 'email', 'firstName', 'lastName', 'phone', 'ip'], query: `*${escapeElastic(req.query.search.toString().toLowerCase())}*`}

其中req.query.search是我的搜索，escapeElastic来自节点模块elasticsearch-sanitize，因为我对一些符号有问题。

我有一些问题，例如，如果我查询ipv6，我会有query: '*2001\:0db8*'，但它在数据库中找不到任何东西，应该是

另一个问题是，如果我有一个名字叫john doe的人，我的查询将是query: '*john\-doe*'，它不会找到任何结果。

似乎转义可以防止查询错误，但在我的情况下会产生一些问题。

我不知道query_string是否是完成我请求的更好方法，我愿意接受优化此查询的建议

感谢

我怀疑字段上的分析器是standard或类似的分析器。这意味着像:和-这样的字符被剥离：

GET _analyze
{
"text": "John-Doe",
"analyzer": "standard"
}

显示

{
"tokens" : [
{
"token" : "john",
"start_offset" : 0,
"end_offset" : 4,
"type" : "<ALPHANUM>",
"position" : 0
},
{
"token" : "doe",
"start_offset" : 5,
"end_offset" : 8,
"type" : "<ALPHANUM>",
"position" : 1
}
]
}

让我们创建自己的分析器，它将保留特殊字符，但同时将所有其他字符小写：

PUT multisearch
{
"settings": {
"analysis": {
"analyzer": {
"with_special_chars": {
"tokenizer": "whitespace",
"filter": [
"lowercase"
]
}
}
}
},
"mappings": {
"properties": {
"firstName": {
"type": "text",
"fields": {
"with_special_chars": {
"type": "text",
"analyzer": "with_special_chars"
}
}
},
"ip": {
"type": "ip",
"fields": {
"with_special_chars": {
"type": "text",
"analyzer": "with_special_chars"
}
}
}
}
}
}

摄入2份样本文件：

POST multisearch/_doc
{
"ip": "2001:0db8:85a3:0000:0000:8a2e:0370:7334"
}
POST multisearch/_doc
{
"firstName": "John-Doe"
}

并应用上面的查询：

GET multisearch/_search
{
"query": {
"query_string": {
"fields": [
"id",
"email",
"firstName.with_special_chars",
"lastName",
"phone",
"ip.with_special_chars"
],
"query": "2001\:0db8* OR john-*"
}
}
}

两个命中都被返回。

有两条注释：1(注意，我们搜索的是.with_special_chars，而不是主字段；2(我已经从ip中删除了前导通配符——这是非常低效的。

询问优化建议后的最后提示：查询可以重写为

GET multisearch/_search
{
"query": {
"bool": {
"should": [
{
"term": {
"id": "tegO63EBG_KW3EFnvQF8"
}
},
{
"match": {
"email": "john@doe.com"
}
},
{
"match_phrase_prefix": {
"firstName.with_special_chars": "john-d"
}
},
{
"match_phrase_prefix": {
"firstName.with_special_chars": "john-d"
}
},
{
"match": {
"phone.with_special_chars": "+151351"
}
},
{
"wildcard": {
"ip.with_special_chars": {
"value": "2001\:0db8*"
}
}
}
]
}
}
}

部分id匹配可能有些过头了——要么term捕捉到了，要么没有
email可以简单地用match表示
CCD_ 14&lastName:我怀疑match_phrase_prefix比wildcard或regexp更具性能，所以我同意(只要你不需要领先的*(
phone可以是match，但一定要确保特殊字符也可以匹配(如果使用国际格式(
对ip使用wildcard——与查询字符串中的语法相同

试试上面的，看看你是否注意到速度有任何提高！

相关内容

最新更新

热门标签：