spacy创建一个大文档,而不是逐段创建



我正在使用Spacy从文本中获得见解,并为我的特定需求创建自己的自定义管道。

碰巧的是,在一个特定的文本中,现在对我来说,段落的数量很重要。

图像我有一个文本像:

text="""this is a first paragraph. /n This is a second paragraph. /n And this might be the third paragraph"""
nlp = spacy.load("en_core_web_sm")
mydoc = nlp(text)

如果我这样做的话,信息提取是否会失去准确性:

text="""this is a first paragraph. /n This is a second paragraph. /n And this might be the third paragraph"""
nlp = spacy.load("en_core_web_sm")
docs = [nlp(paragraph) for paragraph in text.split("/n")]

或者换句话说,Spacy是否因为构建文档时有更多的上下文而表现得更好?

上下文是否有用的答案是取决于它。没有普遍的答案。

然而,对于标准的spaCy组件来说,上下文除了几句话之外没有什么用处,所以如果你有一个很长的文档(比如不止一两页(,你应该把它分解。

对于单个段落,连接它们或单独处理它们之间通常不会有重大差异。

最新更新