在自己的语料库上训练快速文本词嵌入



我想在我自己的语料库上训练快速文本。然而,在继续之前,我有一个小问题。我需要每个句子作为语料库中的一个不同的项目,还是我可以将多个句子作为一个项目?

例如,我有这个DataFrame:
text                                               |     summary
------------------------------------------------------------------
this is sentence one this is sentence two continue | one two other
other similar sentences some other                 | word word sent

基本上,专栏text是一篇文章,所以它有很多句子。因为预处理,我不再有完整的停止.。所以问题是我可以直接做这样的事情还是我需要把每个句子分开。

docs = df['text']
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(docs)

从我读的教程中,我需要每个句子的单词列表,但是如果我有一篇文章中的单词列表呢?有什么不同?这是在你自己的语料库中训练快速文本的正确方法吗?谢谢!

FastText需要文本作为其训练数据-不是任何预矢量化的东西,就像TfidfVectorizer一样。(如果这是你的FastText进程的一部分,那就错了。)

Gensim FastText支持要求训练语料库作为Python可迭代对象,其中每个项是字符串字标记的列表。

每个标记列表通常是一些内聚文本,其中相邻的单词在通常的自然语言中具有使用关系。它可能是一个句子,一个段落,一篇文章,一篇文章/一章,或者其他什么。Gensim唯一的限制是每个文本的长度不应该超过10,000个令牌。(如果你的文本比这更长,它们应该被分割成10000个或更少的部分。但是不要太担心分割点周围的关联损失——对于像FastText这样的算法来说,在足够大的训练集中,任何这样的上下文损失都是可以忽略不计的。

相关内容

  • 没有找到相关文章

最新更新