创建Word嵌入,而无需将FastText Vector文件保存在存储库中



我试图借助Infersent嵌入句子,而InferSent使用FastText向量进行单词嵌入。FastText Vector文件接近5 GIB。

当我们将FastText Vector文件和代码存储库保留时,它使存储库的大小变得很大,并且使代码难以共享/部署(甚至创建Docker容器)。

是否有任何方法可以避免将矢量文件与存储库一起保存,但是将其重用以嵌入新句子?

您嵌入了哪种句子,它与生成fastText嵌入的句子相同?

尝试将您的数据表示在代币中,即一组所有令牌,或者是要使用fastText嵌入的句子中的最常见令牌的某些表示。

计算令牌与fastText中令牌的重叠,从fastText中删除没有出现在数据表示中的fastText。

我最近这样做了,从带有一些预训练的单词嵌入的1.4GB文件转到200 MB,主要是因为与我的语料库的重叠约为10%。

最新更新