LaBSE预处理器输出的文本表示?



我使用以下模型来标记来自多种语言的句子:https://tfhub.dev/google/universal-sentence-encoder-cmlm/multilingual-preprocess/2

对于以下输入:

"I wish you a pleasant flight and a good meal aboard this plane."

输出以下标记:

[101, 146, 34450, 15100, 170, 147508, 48088, 14999, 170, 17072, 66369, 351617, 15272, 69746, 119, 102]

我想从这个输出中恢复令牌的文本表示形式。例如:

[START, I, wish, ..., plane, .]

到目前为止,我一直在寻找标记<=>文本映射,但发现的资源主要是关于BERT的,它有几个单语言模型,而我想保持语言无关。

知道怎么做吗?

提前感谢你的帮助,

google/universal-sentence-encoder-cmlm/multilingual-preprocess/2模型的默认缓存位置是/tmp/tfhub_modules/8e75887695ac632ead11c556d4a6d45194718ffb(更多关于缓存的信息)。在assets目录中,您将找到cased_vocab.txt,这是使用的词汇表:

!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 102p
> [CLS]
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 147p
> I
!cat /tmp/tfhub_modules/.../assets/cased_vocab.txt | sed -n 34451p
> wish
...

注意,sed假设索引是基于1的,而预处理器的输出是基于0的。

最新更新