如何向space中添加用户自定义的单词



我是一个使用spaCy的新手,正在使用spaCy处理医学文献。我发现Tokenizer会把两个词组成的拉丁名分成两个独立的词,这是不合适的。另外,我有上千个定制词,基本都是生物名称(通常是两个词组成的,比如当归)。如何将这些自定义单词添加到space中,并让Tokenizer将这些多单词识别为单个令牌,而无需拆分它们?谢谢你。

如果您有一个多词表达式列表,您想将其作为令牌处理,最简单的方法是使用EntityRuler将它们标记为实体,然后使用merge_entitites组件。

最新更新