我正在使用PHP上的Naive贝叶斯分类器(http://www.xhtml.net/php/PHPNaiveBayesianFilter)
还有一个单词列表,在训练系统时可以忽略这些单词。这些单词不会保存到数据库中,因此不会用于分类。我想尽我所能改进这个系统,所以我想知道对于这种系统,是否有任何规则或典型单词列表可以忽略。
我目前正在忽略诸如";至"以及""对于"由于"其"什么"谁";。。。以及一些典型的动词,如";是"是"是"被";。。。等等
您将要处理很多单词。。。。主要是形容词和连词,也许还有动词。。。。
这是一个很长的列表,你需要保存为txt或导入到你的数据库。。。。。我建议你直接搜索并下载
这里有一些链接
http://www.momswhothink.com/reading/list-of-verbs.html
http://grammar.yourdictionary.com/parts-of-speech/conjunctions/conjunctions.html
http://www.smart-words.org/transition-words.html
http://www.momswhothink.com/reading/list-of-adjectives.html
你的单词越多,你的系统工作得越好
谢谢:)
不确定你有多少数据,但如果你可以使用python的包nltk
,你可以得到一个预先编译的"停止"单词列表,这些单词通常在运行分类之前被删除。你也可以词干/词干化(再次使用nltk
)所有单词,这通常有助于Naive Bayes。此外,nltk
可以很好地识别词性,因此您也可以进行更高级的过滤(例如,只保留名词、专有名词、动词、副词和形容词)