Scikit分类比较/排名



我是scikit的新手,我在这里遵循这个例子

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#exercise-3-cli-text-classification-utility

但是,我想知道,如果要分类的字符串 A 和 B 都归类在 Naiive Bayes 的同一文档组下,我是否能够找出哪个字符串更有可能归类在文档组下?

例如,如果文档组是"计算机图形学",而我有一个字符串"计算机很酷",另一个字符串"OpenGL 和 CUDA 很酷",而它们都可能被归类在该文档组下,则第二个字符串可能会更强烈地分类在该字符串下,因为它的 tf-idf 分数可能更高。有没有办法让我在对它们进行分类后找出这一点,以便我可以找到哪个字符串更能代表该类别?

scikit中的许多分类器都有一个方法predict_proba该方法返回给定测试数据属于任何可用输出类别的预测概率。 (例如,这是高斯朴素贝叶斯的那个。 您可以使用它来确定模型对分类的置信度。

相关内容

  • 没有找到相关文章

最新更新