NLP 的清洁函数的矢量化形式



我做了以下函数来清理数据集的文本注释:

import spacy
nlp = spacy.load("en")
def clean(text):
    """
    Text preprocessing for english text
    """
    # Apply spacy to the text
    doc=nlp(text)
    # Lemmatization, remotion of noise (stopwords, digit, puntuaction and singol characters)
    tokens=[token.lemma_.strip() for token in doc if 
            not token.is_stop and not nlp.vocab[token.lemma_].is_stop # Remotion StopWords
            and not token.is_punct # Remove puntuaction
            and not token.is_digit # Remove digit
           ]
    # Recreation of the text
    text=" ".join(tokens)
    return text.lower()

问题是当我想清理所有数据集文本时,需要几个小时和一小时。(我的数据集是 70k 行,每行 100 到 5000 个单词(

我尝试使用 swifter 在多线程上运行 apply 方法,如下所示: data.note_line_comment.swifter.apply(clean)

但它并没有真正变得更好,因为它花了将近一个小时。

我想知道是否有任何方法可以制作我的函数的矢量化形式,或者可能还有其他方法来加快该过程。知道吗?

简答

这种类型的问题本质上需要时间。

长答案

  • 使用正则表达式
  • 更改空间管道

有关做出决定所需的字符串的信息越多,所需的时间就越长。

好消息是,如果你对文本的清理相对简化,一些正则表达式可能会起作用。

否则,您将使用 spacy 管道来帮助删除文本位,这是昂贵的,因为它默认执行许多操作:

  1. 标记化
  2. 词形还原
  3. 依赖关系解析
  4. 内尔
  5. 分块

或者,您可以再次尝试您的任务并关闭您不想要的空间管道的各个方面,这可能会大大加快速度。

例如,可以关闭命名实体识别、标记和依赖项解析...

nlp = spacy.load("en", disable=["parser", "tagger", "ner"])

然后再试一次,它会加快速度。

相关内容

  • 没有找到相关文章

最新更新