酒店评估数据集中文件的阳性/负率百分比



有一个酒店-REVIEW数据集,每个数据集有1500个正和负文件。要确定我的算法的准确性,我必须首先检查酒店评论数据集中原始文件的百分比阳性或负率。

我尝试了基本百分比标准:

阳性%= no。阳性单词/(总计 总否单词)

,但这没有任何明显的立场,因此无法为此努力。还有其他我可以工作的方法或基础吗?

示例 -> (她是我见过的最美丽的女士。)应该比获得更好的阳性百分比(她是一个好女士。)

我正在python做工作。

您可以尝试的第一件事是从单词(正与负)切换到滑动刻度。SentiWordnet项目提供此。

但是,在您的特定示例中,这实际上可能会使情况变得更糟。例如。尼斯给P = 0.875。而美丽只能获得P = 0.75。当然,如果您不同意,您可以修复SentiWordnet评分,但我建议使用自动系统进行此类调整,并具有尽可能多的特定领域培训数据。

顺便说一句,至少有几个python接口到sentiwordnet。

  • http://compprag.christopherpherpotts.net/code-data/sentiwordnet.py将自己描述为"使用NLTK WordNet类的sentiwordnet接口"。
  • https://pypi.python.org/pypi/sentiment_classifier是一个更通用的工具,使用sentiwordnet。

回到您的示例,关键区别是"我见过的最[某种东西]结构。这需要从一袋单词方法切换到实际解析和理解句子。我没有有用的潜在客户可以给您在那里,所以如果有人说已经有一个现成的开源软件包已经这样做: - )

,我会很高兴。

我也想提及上下文的重要性。没有任何背景"她是一个美丽的女士"one_answers"她是一个好女士"既简单又积极。但是,在酒店评论及其与我的相关性的情况下,也许"好"比"美丽"更有用,为了娱乐,比较这两个:

  • "接待员是一个好女士。"

  • "早餐时,在我附近的桌子上,是我见过的最美丽的女士。这是食物的可喜分散。"

这是我喜欢情感分析的挑战;商业应用程序只是解决此类问题的借口!

最新更新