用于描述结果的搜索引擎想法



我正在为全文搜索制作搜索引擎,在显示带有描述的结果时,性能有问题。我为当前查询制作了结果,但是当我尝试获取文本并突出显示关键字所在的部分时,性能不足。我使用pdf,txt,doc,docs,html等。所以我的搜索引擎的工作方式是这样的:

  • 我有一个存储文档文本的数据库表
  • 有一个数据库表,我在其中索引文本
  • 的频率

这个场景好不好。我必须搜索索引并获取文档,解析文本,获取句子,使用关键字过滤句子。不带描述的搜索性能为:

**Крушевското Востание 1903** 0,00518989562988
**Даме Груев** 0,00394678115845
**Даме Груев и Гоце Делчев**  0,0916090011597
**Државен празник Илинден** 0,0072648525238
**Даме** 0,00195503234863
**Александар Македонски** 0,0423209667206
**Бранко Црвенковски и Никола Груевски** 0,0233609676361
**СДСМ и ВМРО-ДПМНЕ** 0,0295231342316
**Македонија** 0,0435738563538
**Никола Груевски и Македонија** 0,0451180934906

搜索关键字是我的母语,文档集合是3679。使用句子的描述标签,我的结果显示速度慢了 10-20 倍。(如 2-3 秒)。搜索是用python进行的。

有什么建议吗?

我真的建议你看看像Elastic搜索和Solr这样的项目(都基于Lucene),它们都支持你想要做的事情(全文搜索,结果突出显示......)等等。

最新更新