继续训练快速文本模型



我已经下载了一个.bin的FastText模型,我将其与gensim一起使用,如下所示:

model = FastText.load_fasttext_format("cc.fr.300.bin")

我想继续训练模型以使其适应我的领域。在检查了FastText的Github和Gensim文档之后,似乎目前无法使用此人提议的修改(尚未合并(。

我错过了什么吗?

您可以在某些版本的 GensimfastText(例如 v.3.7.*(中继续训练。下面是"加载、推断、继续训练"的示例

from gensim.test.utils import datapath
model = load_facebook_model(datapath("crime-and-punishment.bin"))
sent = [['lord', 'of', 'the', 'rings'], ['lord', 'of', 'the', 'semi-groups']]
model.build_vocab(sent, update=True)
model.train(sentences=sent, total_examples = len(sent), epochs=5)

由于某种原因,gensim.models.fasttext.load_facebook_model()在Windows上丢失,但在Mac的安装中存在。或者,可以使用gensim.models.FastText.load_fasttext_format()加载预先训练的模型并继续训练。

以下是各种预先训练的 Wiki 单词模型和向量(或此处(。

另一个例子。">注意:与Word2Vec的情况一样,您可以在使用Gensim的fastText原生实现的同时继续训练模型。

拉取请求 #1327 (https://github.com/facebookresearch/fastText/pull/1327(

允许:

  1. 每个纪元后的测试
  2. 检查点
  3. 在不适合内存的大数据上进行训练(我测试的最大数据是 1.6TB(
  4. 微调已训练的模型

经过训练的模型与原始工具创建的模型没有区别,可以通过旧代码进行推理。

官方的 FastText 实现目前不支持这一点,尽管有一个与此问题相关的开放票证,您可以在此处找到。

最新更新