5000 条评论的单个情绪分析的平均值是否与 5000 条评论串联的情绪分析相同?



我正在尝试对reddit线程进行情绪分析。我面临的问题是,云NLP API的某些免费层(Google自然语言,Azure文本分析等)每月只允许免费层中的5000次调用。我正在尝试查看是否可以将一些评论连接到每次调用的最大字符数限制,以便在免费层中分析更多评论。

  • 这是一种有缺陷的方法吗?
  • 对串联的评论字符串进行情绪分析会导致错误的情绪分数吗?
  • 我是否应该对单个评论进行情绪分析,然后平均所有个人分数以获得整体线程分数?

有趣的问题 - 如果评论是独立的并且根本不相关,那么串联或平均值都可能导致您获得中性分数- 类似于一系列抛硬币的结果是 0.5 而不是 1 或 0。这不会很有用

但是,假设您正在对一个帖子周围的reddit 线程进行情感分析(而不是对子 reddit 中多个帖子的线程进行分析),您可能会通过串联或平均值获得相同的结果。Reddit线程中的评论通常是相关的,要么是正面的,要么是负面的(或完全不相关的)。因此,您应该在用例中通过建议的串联方法来了解情绪。

我的理论(还没有数据支持)是,使用平均值或串联将倾向于将你的情绪集中在中性周围,你不会看到强烈的积极或消极。

最新更新