LSA 相似性接口



我是翻译研究专业的博士生,目前正在写论文。我在论文中使用LSA相似性接口作为分析方法。我的背景是语言学,而不是计算机科学。我试图找到一个简单的LSA文档分类工具,但找不到。我试着和Gensim一起玩,我没有工作。我认为我的问题是将我的语料库(txt 文件(与 Gensim 工具链接以进行分析(我不知道如何执行此步骤(。如果有人可以帮助我进行分析或指导我使用任何工具或简单的教程来使用 Gensim 来完成,我将不胜感激。

我想

执行以下操作:我想应用文档文档查询以从语料库检索与查询文档最相关的 5 个文档。

  1. 我有 15 个查询文档
  2. 我有一个语料库(150篇(文本是短篇小说

我很绝望,我犹豫要不要在这里发布这个问题。我相信在翻译研究中应用LSA会增加该领域,这使我更加坚持不懈地寻找分析方法。

目前唯一

真正简单、用户友好的 LSA 工具是 http://lsa.colorado.edu/。不幸的是,它只是一个基于 Web 的工具,它不允许您在自己的语料库上训练 LSA。但根据您的需求,这可能无关紧要。

如果我理解正确,您需要 15 个查询文档和 150 个短篇小说中的每一个之间的文档-文档相似性分数(总共 15*150=2250 个相似性分数(。如果这些查询文档和短篇小说是英文的,那么您可以使用在许多 LSA 研究中使用的 TASA 语料库上训练的 LSA 版本,如下所示:

  • 转到 http://lsa.colorado.edu/
  • 选择一对多比较
  • 复制粘贴"正文"框中的
  • 一篇短篇小说,并在"要比较的文本"框中用空行分隔 15 个查询
  • 对你的每个短篇小说重复一遍。巨大的痛苦?是的。但如果你绝望了...

如果你用Python或R编程一点,LSA的其他工具包括 http://clic.cimec.unitn.it/composes/toolkit/introduction.html 和 http://cran.r-project.org/web/packages/lsa/lsa.pdf,并且会节省上述建议的体力劳动。另外,我知道您已经尝试过Gensim,但是 http://radimrehurek.com/gensim/tutorial.html 有一个很好的教程,如果您还没有尝试遵循,则可以尝试遵循。

最新更新