r-文档相似性自剽窃

我有来自100位不同作者的数千个小文档。使用quanteda软件包，我计算了作者与自己之间的余弦相似度。例如，作者x有100个文本，所以我提出了一个100 x 100的相似性矩阵。作者y有50篇文章，所以我提出了一个50 x 50的相似性矩阵。

现在我想比较一下这两位作者。换言之，哪位作者复制自己的作品更多？如果我取列或行的平均值，然后再次取均值向量的平均值。我得到一个数字，这样我就可以比较这两种均值，但我不确定这些过程是否正确。我希望我说清楚了。

我认为答案取决于你的兴趣量。如果这是对作者的文档彼此相似程度的单一总结，那么在作者内部对文档相似性进行一些分布可能是比较作者之间这一数量的最佳方法。

例如，除了使用平均值总结这种分布的策略外，您还可以将作者文档中的余弦相似性保存并绘制为密度。为了捕捉方差，我还将描述这种相似性的标准差。

我会谨慎地将作者内部的余弦相似性称为"自我剽窃"。余弦相似度计算单词袋的矢量表示之间的距离，不被视为识别"剽窃"的方法。此外，"剽窃"一词也有非常贬义的含义，意思是不诚实地将他人的想法表示为自己的想法。(我甚至不相信"自我剽窃"这个词有任何意义，但我的学术同事也不同意。)

添加：

考虑一下R的textreuse包，它是为您所寻找的那种重用的文本分析而设计的。

我不认为莱文斯坦距离是你想要的。正如维基百科页面所指出的，小猫和坐着之间的LD为3，但这对它们的语义关系或其中一个是"重复使用"另一个的例子来说绝对没有任何实质意义。可以提出一个论点，即基于单词的LD可能会显示出重复使用，但大多数算法(例如。http://turnitin.com实施剽窃检测。

相关内容