是否建议在Word2Vec算法中删除重复的单词



i具有一个由DNA序列组成的数据,其中单词表示为长度6的kmers,句子表示为DNA序列。每个DNA序列都有80公里(单词(

我拥有的KMers清单约为130,000公里,但是在删除了重复的元素之后,我只有4500公里。因此,这一巨大的差距使我感到困惑,因为是否删除了重复的Kmers。我的问题是,在这种情况下,是否建议删除Word2Vec算法中重复的KMER?

谢谢。

没有示例,目前尚不清楚您通过"删除重复元素"的意思。(这是否意味着,当连续两次出现同样的令牌时?还是在一个"句子"中两次?

您说词汇中有130,000个令牌,但后4,500个令牌也令人困惑。通常,"词汇"大小是独特的代币数量。删除复制令牌无法改变遇到的唯一令牌的数量。

在Word2Vec的通常域中,自然语言,单词通常不会重复一键。在某种程度上,他们有时可能(就像说话"这里非常热"的话语中,这并不是一个真正重要的情况,我注意到有人在评论处理"与其他两个单词"的处理"非常不同"。<<<<<<<</p>

(如果一个语料库具有一些人为地删除的全句,那么可能您想尝试丢弃确切的态度。的不同用法示例。重复相同的句子10倍基本上超重这些训练示例 - 它不如10个对比,但仍然有效,相同单词的示例'用法。(

(

您处在一个不是自然语言的不同领域,具有不同的共发生频率和不同的最终目标。Word2Vec可能证明是有用的,但是其他领域的总体规则或建议不太可能有用。您应该两种方式测试事物,以可重复的重复方式评估最终任务的结果,然后根据发现的内容进行选择。

最新更新