NLP:如何看待torchtext中的句子编码


TEXT = data.Field(tokenize = 'spacy',
tokenizer_language = 'en_core_web_sm',
include_lengths = True)
LABEL = data.LabelField(dtype = torch.float)
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)
train_data, valid_data = train_data.split(random_state = random.seed(SEED))
MAX_VOCAB_SIZE = 25_000
TEXT.build_vocab(train_data, 
max_size = MAX_VOCAB_SIZE, 
vectors = "glove.6B.100d", 
unk_init = torch.Tensor.normal_)
LABEL.build_vocab(train_data)

假设我已经根据上面的训练数据建立了词汇表。现在我想看看训练数据中句子的一个热门编码,我应该怎么做?(我知道迭代器会自动给出编码和填充的句子,但我只想看看编码是什么样子的(。

提前感谢!

实现这一点的一种方法是使用__getitem__功能。查看此处的文档。您传入一个string/token作为参数(例如vocab['cat'](,它将为您提供vocab中令牌的索引。如果你从训练数据中得到一个句子,然后迭代地得到每个单词的标记,你就会得到句子中单词的vocab索引集。

最新更新