深度学习 - word2vec :以不区分大小写的方式查找相似的单词 - deep learning - word2vec : find words similar in a case insensitive manner 小贝子编程网

我可以访问我感兴趣的文本语料库上的词向量。现在，我面临的问题是这些向量区分大小写，即例如"Him"不同于"him"与"HIM"不同。

我想找到与"他"这个词最相似的词是一种不区分大小写的方式。我使用与Google word2vec软件包捆绑在一起的distance.c程序。这是我面临一个问题的地方。

我是否应该将参数"他"传递给distance.c可执行文件。这将返回关闭到 3 个单词的单词发送。

还是我应该分别运行 distance.c 程序，其中包含 3 个参数（"他"和"他"和"HIM"），然后以合理的方式将这些列表放在一起以得出最相似的单词？请指教。

如果要以不区分大小写的方式查找相似的单词，则应将所有单词向量转换为小写或大写，然后运行distance.c的编译版本。

使用标准外壳工具相当容易做到这一点。

例如，如果您的原始数据在一个名为 input.txt 的文件中，则以下内容适用于大多数类 Unix shell。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt

您可以将二进制格式转换为文本，然后根据需要进行操作。

深度学习 - word2vec :以不区分大小写的方式查找相似的单词