酒店评估数据集中文件的阳性/负率百分比

有一个酒店-REVIEW数据集，每个数据集有1500个正和负文件。要确定我的算法的准确性，我必须首先检查酒店评论数据集中原始文件的百分比阳性或负率。

我尝试了基本百分比标准：

阳性％= no。阳性单词/（总计总否单词）

，但这没有任何明显的立场，因此无法为此努力。还有其他我可以工作的方法或基础吗？

示例 -> （她是我见过的最美丽的女士。）应该比获得更好的阳性百分比（她是一个好女士。）

我正在python做工作。

您可以尝试的第一件事是从单词（正与负）切换到滑动刻度。SentiWordnet项目提供此。

但是，在您的特定示例中，这实际上可能会使情况变得更糟。例如。尼斯给P = 0.875。而美丽只能获得P = 0.75。当然，如果您不同意，您可以修复SentiWordnet评分，但我建议使用自动系统进行此类调整，并具有尽可能多的特定领域培训数据。

。

顺便说一句，至少有几个python接口到sentiwordnet。

http://compprag.christopherpherpotts.net/code-data/sentiwordnet.py将自己描述为"使用NLTK WordNet类的sentiwordnet接口"。
https://pypi.python.org/pypi/sentiment_classifier是一个更通用的工具，使用sentiwordnet。

回到您的示例，关键区别是"我见过的最[某种东西]结构。这需要从一袋单词方法切换到实际解析和理解句子。我没有有用的潜在客户可以给您在那里，所以如果有人说已经有一个现成的开源软件包已经这样做： - ）

，我会很高兴。

我也想提及上下文的重要性。没有任何背景"她是一个美丽的女士"one_answers"她是一个好女士"既简单又积极。但是，在酒店评论及其与我的相关性的情况下，也许"好"比"美丽"更有用，为了娱乐，比较这两个：

这是我喜欢情感分析的挑战；商业应用程序只是解决此类问题的借口！

相关内容