我正在为一个德国新闻网站使用Crate,并广泛使用全文搜索(通常效果很好)。然而,我想知道停止词的用法。我想尽量减少这种情况,因为搜索速度很快,所以我不太担心性能。这样做明智吗?并且:默认情况下,实际使用的是哪些停止词——是否有内置停止词列表?
内置单词实际上来自lucene,位于机箱lib目录中的lucene-analyzers-common*.jar
文件防水布。
如果提取jar文件的内容,您会发现一个名为包含所有德语停止词的CCD_ 2。
lucene源代码中还有一组单词,标记为已弃用,所以我认为它已不再使用。这些词应该是:
"einer", "eine", "eines", "einem", "einen",
"der", "die", "das", "dass", "daß",
"du", "er", "sie", "es",
"was", "wer", "wie", "wir",
"und", "oder", "ohne", "mit",
"am", "im", "in", "aus", "auf",
"ist", "sein", "war", "wird",
"ihr", "ihre", "ihres",
"als", "für", "von", "mit",
"dich", "dir", "mich", "mir",
"mein", "sein", "kein",
"durch", "wegen", "wird"
我认为违约已经足够了,除非你遇到一些麻烦具体的单词我看不出有什么理由调整停止词。