我想创建一个文档术语矩阵。在我的情况下,它不像文档x单词,而是句子x的单词,因此这些句子将充当文档。我正在使用'l2'规范化post-doc术语矩阵创建。
术语计数对于我在接下来的步骤中使用SVD创建摘要非常重要。
我的问题是哪个轴适合应用'l2'规范化。经过充分的研究,我明白了:
- 轴=1:将告诉我单词在句子中的重要性(按列规范化(
- Axis=0:单词在文档中的重要性(按行规范化(
即使在了解了理论之后,我也无法决定选择哪种替代方案,因为这种选择会极大地影响我的总结结果。因此,请指导我一个解决方案以及同样的原因。
L2标准化是指除以总数吗?如果沿轴=0归一化,则x_{i,j}
的值是单词j
在所有句子i
上的概率(除以全局字数(,这取决于句子的长度,因为较长的单词可以反复重复某些单词,并且对该单词的概率要高得多,因为它们对全局字数有很大贡献。如果你沿着轴=1进行归一化,那么你会问句子是否有相同的单词组成,就像你沿着句子长度进行归一化一样。