单数/复数搜索和词干



我发现了一个用于单数-复数关键字搜索的简单解决方案。我听说过词干,但我不想使用它的所有特征,只想使用复数/单数转换。语言是荷兰语。看过http://www.snowball.tartarus.org之前有人知道单数|复数相关搜索的简单解决方案吗?提前谢谢。

使用字典、停止语列表(那些你不想单独使用的单词)以及语言规则。如果你不懂荷兰语,那么我无法帮助你,但请告诉你如何用西班牙语完成,例如:

  • 复数以s结尾,如果没有,则结束
    • 如果它以s结束,
      • 检查它是否是一个动词或以s结尾的变位,如果它是一个,那么它就完成了(动词可以添加到停止语列表中)
      • 如果不是动词,请删除s
      • 如果字典里有这个词,完成
      • 如果它没有删除前一个字母,请在字典中检查
      • 如果它仍然不存在,那么它就是一个异常,您需要手动检查以在异常中进行编码(我现在想不出任何异常,但它们总是存在:)

当然,这不会直接翻译成荷兰语。

一般来说,干细胞器已经完成,并提供了你所需要的大部分,你为什么不想要它们呢?

Stemmers引起了很多用户的烦恼,所以如果我使用其中一个,除了单数/复数之外的所有功能都应该被禁用。因此,要求仅使用复数/奇异变换。

答案是正确的,但值得一提的是,荷兰语有大量的不规则动词。这使得词干更像是一个表查找问题,而不是一组单一的规则。

你需要访问一个语料库,你可以在这里找到一个荷兰语语料库:http://corpus1.mpi.nl/ds/imdi_browser/

最新更新