我一直在尝试实现Roccio算法,我理解该算法背后的基本思想,但我很难将其具体化。我之前计算过tf_idf,它是我们为至少包含一个查询词的每个文档搜索的查询词数量的长度向量。但现在,我觉得我无法将文档表示为仅由查询术语形成的空间中的向量,因为这将不允许我"发现"相关文档的其他共同术语。那么,我应该在当前返回的文档集中找到的所有标记的向量空间中表示查询的向量和文档的向量吗?
blockquote是的,向量(文档和查询(的维度是集合的词汇表大小。。。所以这些向量是非常稀疏的(大多数条目是零(。。。
是的,正如@Debasis所说,这是正确的答案。