在使用FastText模型时，从我的域特定pdf中查找超出词汇表(OOV)的单词列表

如何在使用FastText模型时从我的域特定pdf中找到词汇表(OOV)单词列表?我需要微调FastText与我的领域特定的词。

FastText模型已经能够为OOV单词生成向量。

因此，没有必要在PDF中列出特定的OOV单词，也没有必要将"微调"作为FastText模型。

你只要问它是否有向量，它就会给出它们。从相关的训练材料中训练出来的完整词汇的向量可能是最好的，而从与训练材料共享的词片段(字符n-grams)合成的OOV词的向量只是粗略的猜测——聊以总比没有好，但不是很好。

(训练一个好的词向量需要一个词使用的许多不同的例子，与它的许多"同类"词的类似的好例子交织在一起——传统上，在一个统一的、平衡的训练课程中。)

如果你认为你需要做得更多，你应该用更多的细节来扩展你的问题，说明为什么你认为这是必要的，以及你试图匹配哪些现有的先例(在文档/教程/论文中)。

我还没有看到一种记录良好的方法来随意地微调或增量地扩展现有FastText模型的已知词汇表。这将需要很多专家的权衡，在许多情况下，简单地训练一个有足够数据的新模型可能是一种更安全的方法。

任何寻求这种微调的人都应该清楚地了解:

相关内容