我有一组出现或与网页相关的术语(例如HTML标签中的关键字)。这些不是句子,它们只是关键词的集合,标题中的单词等。我很感兴趣,给了这样一个网页,去找那些最相似的。在一个有句子/段落的情况下,我会考虑使用句子转换器,甚至像Doc2vec。但在这种情况下,我只有一页的一组单词,没有真正的上下文或句子。我是否正确,这使我无法使用句子转换器/Doc2vec ?
没有什么可以阻止你使用任何东西。相关的测试是:使用它是否有效,对于您的独特数据&目标?
Doc2Vec
和其他浅层技术在关键词列表等不是完美语法句子的情况下工作得很好:它们通常使用单词的存在或不存在作为信号,没有严格的语法理解。这对很多目的来说都足够了!
一些更深层次的变形器可能对连贯的自然语言话语有更多的顺序依赖——但我不能确定,直到它被尝试并显示出不足。这可能有用!没有人(从你的问题中)对你的数据只有最模糊的草图。目标比你自己的实验更能给你提示。
尝试一些东西——包括超级简单的东西,比如词袋表示的余弦相似度,或者基于一些最重要的术语的关键字搜索——然后根据你的需要/期望的结果评估结果。
你可能会通过特别的目测来开始一些评估——"这个看起来不错,这个看起来不对";-但理想情况下,它会记录下哪些文档"应该"的判断。在您想要的终端系统中,要比其他系统更加相似,这样最终您就可以对备选方法进行自动的、定量的比较。