在计数矢量器中使用哪个轴

我想创建一个文档术语矩阵。在我的情况下，它不像文档x单词，而是句子x的单词，因此这些句子将充当文档。我正在使用'l2'规范化post-doc术语矩阵创建。

术语计数对于我在接下来的步骤中使用SVD创建摘要非常重要。

我的问题是哪个轴适合应用'l2'规范化。经过充分的研究，我明白了：

轴=1：将告诉我单词在句子中的重要性(按列规范化(
Axis=0：单词在文档中的重要性(按行规范化(

即使在了解了理论之后，我也无法决定选择哪种替代方案，因为这种选择会极大地影响我的总结结果。因此，请指导我一个解决方案以及同样的原因。

L2标准化是指除以总数吗？如果沿轴=0归一化，则x_{i,j}的值是单词j在所有句子i上的概率(除以全局字数(，这取决于句子的长度，因为较长的单词可以反复重复某些单词，并且对该单词的概率要高得多，因为它们对全局字数有很大贡献。如果你沿着轴=1进行归一化，那么你会问句子是否有相同的单词组成，就像你沿着句子长度进行归一化一样。

相关内容

最新更新

热门标签：