space与NLTK单词标记基准测试

[My code][1]

import NLTK import space NLP = space .load("en_core_web_sm"，disable = ['parser'， 'ner'，'tok2vec'， 'tagger'， 'attribute_ruler'， 'lemmatizer']) NLP。Max_length = 4532554

BIGDATA = open("/Users/harikaranharithas/Downloads/data/en/en.txt"，'r')BIGDATA_R = BIGDATA.read()

Nw = %timeit -o nltk.tokenize.word_tokenize(BIGDATA_R[00:1000000])输出-每回1.35秒±139毫秒(7次运行的平均值±标准差，每次1回)Sw = %timeit -o nlp(BIGDATA_R[00:1000000])输出- 125 ms±3.72 ms/循环(平均±标准开发，7次运行，每次1个循环)

大数据是由几篇维基百科文章(2B个单词)组成的文本文件

我的电脑规格是:MacBook Pro(16英寸，2019年)2,6 GHz 6核英特尔酷睿i716gb 2667 MHz DDR4Intel UHD显卡630 1536mb (+4GB radon 5500)

space不是比NLTK快吗?我做错了什么?我在论文中读到，在单词标记化中，空间大约是8倍，如何正确地对空间和NLTK进行基准测试?

将文档传递给nlp可能不仅仅是标记化。

可以尝试仅显式使用标记器吗?

from spacy.lang.en import English
nlp = English()
# Create a Tokenizer with the default settings for English
# including punctuation rules and exceptions
tokenizer = nlp.tokenizer
tokenizer(BIGDATA_R[0:100000])

相关内容

最新更新

热门标签：