在计数矢量器中使用哪个轴



我想创建一个文档术语矩阵。在我的情况下,它不像文档x单词,而是句子x的单词,因此这些句子将充当文档。我正在使用'l2'规范化post-doc术语矩阵创建。

术语计数对于我在接下来的步骤中使用SVD创建摘要非常重要。

我的问题是哪个轴适合应用'l2'规范化。经过充分的研究,我明白了:

  • 轴=1:将告诉我单词在句子中的重要性(按列规范化(
  • Axis=0:单词在文档中的重要性(按行规范化(

即使在了解了理论之后,我也无法决定选择哪种替代方案,因为这种选择会极大地影响我的总结结果。因此,请指导我一个解决方案以及同样的原因。

L2标准化是指除以总数吗?如果沿轴=0归一化,则x_{i,j}的值是单词j在所有句子i上的概率(除以全局字数(,这取决于句子的长度,因为较长的单词可以反复重复某些单词,并且对该单词的概率要高得多,因为它们对全局字数有很大贡献。如果你沿着轴=1进行归一化,那么你会问句子是否有相同的单词组成,就像你沿着句子长度进行归一化一样。

相关内容

  • 没有找到相关文章

最新更新