在使用FastText模型时,从我的域特定pdf中查找超出词汇表(OOV)的单词列表



如何在使用FastText模型时从我的域特定pdf中找到词汇表(OOV)单词列表?我需要微调FastText与我的领域特定的词。

FastText模型已经能够为OOV单词生成向量。

因此,没有必要在PDF中列出特定的OOV单词,也没有必要将"微调"作为FastText模型。

你只要问它是否有向量,它就会给出它们。从相关的训练材料中训练出来的完整词汇的向量可能是最好的,而从与训练材料共享的词片段(字符n-grams)合成的OOV词的向量只是粗略的猜测——聊以总比没有好,但不是很好。

(训练一个好的词向量需要一个词使用的许多不同的例子,与它的许多"同类"词的类似的好例子交织在一起——传统上,在一个统一的、平衡的训练课程中。)

如果你认为你需要做得更多,你应该用更多的细节来扩展你的问题,说明为什么你认为这是必要的,以及你试图匹配哪些现有的先例(在文档/教程/论文中)。

我还没有看到一种记录良好的方法来随意地微调或增量地扩展现有FastText模型的已知词汇表。这将需要很多专家的权衡,在许多情况下,简单地训练一个有足够数据的新模型可能是一种更安全的方法。

任何寻求这种微调的人都应该清楚地了解:

  • 他们的增量数据可能能够添加到现有模型
  • 他们将使用什么过程/代码,以及为什么该过程/代码可能期望通过特定的初始模型给出有意义的结果&新数据
  • 如何评估任何此类过程的结果,以确保与替代方案相比,额外的微调步骤是有益的

最新更新