我试图使用sensene_transformers来获得bert嵌入,但它无法处理例如300个文档,我不断得到错误IndexError:列表索引超出范围。如何解决这个问题?
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('distilbert-base-nli-mean-tokens')
embeddings = model.encode(tokenized_docs_smaller, show_progress_bar=True)
必须使用BertTokenizer对文本进行标记,而不仅仅是使用split()