我已经能够为英语的全文搜索设置sphinx。然而,我有多语言文本(印度英语(混合,我需要创建索引。
我找不到太多关于如何在斯芬克斯中实现这一点的信息。
或者我需要切换到其他数据库吗。
一般情况下,您只需要设置charset_table
以包含要搜索的所有单词字符http://sphinxsearch.com/docs/current/conf-charset-table.html
遗憾的是,默认设置实际上只有针对英语和俄语的良好定义的字符集表——剩下的就是自己为其他语言实现字符集表规则。
wikihttp://sphinxsearch.com/wiki/doku.php?id=charset_tables是否有可能可用的天成文书列表?
默认情况下,Manticore Search(在评论中提到(确实有更详细的charset_tables。其默认的"non_cjk"应支持印地语。可以只在Manticore中使用它,也可以(稍微努力(将其移植到Sphinx中使用。https://github.com/manticoresoftware/manticoresearch/tree/master/src/charsets