space与NLTK单词标记基准测试



[My code][1]

import NLTK import space NLP = space .load("en_core_web_sm",disable = ['parser', 'ner','tok2vec', 'tagger', 'attribute_ruler', 'lemmatizer']) NLP。Max_length = 4532554

BIGDATA = open("/Users/harikaranharithas/Downloads/data/en/en.txt",'r')BIGDATA_R = BIGDATA.read()

Nw = %timeit -o nltk.tokenize.word_tokenize(BIGDATA_R[00:1000000])输出-每回1.35秒±139毫秒(7次运行的平均值±标准差,每次1回)Sw = %timeit -o nlp(BIGDATA_R[00:1000000])输出- 125 ms±3.72 ms/循环(平均±标准开发,7次运行,每次1个循环)

大数据是由几篇维基百科文章(2B个单词)组成的文本文件

我的电脑规格是:MacBook Pro(16英寸,2019年)2,6 GHz 6核英特尔酷睿i716gb 2667 MHz DDR4Intel UHD显卡630 1536mb (+4GB radon 5500)

space不是比NLTK快吗?我做错了什么?我在论文中读到,在单词标记化中,空间大约是8倍,如何正确地对空间和NLTK进行基准测试?

将文档传递给nlp可能不仅仅是标记化。

可以尝试仅显式使用标记器吗?

from spacy.lang.en import English
nlp = English()
# Create a Tokenizer with the default settings for English
# including punctuation rules and exceptions
tokenizer = nlp.tokenizer
tokenizer(BIGDATA_R[0:100000])

最新更新