关于pdf/docx文件的ner/空格及其文本位置的一般性问题

我正在研究ner/space，并有一个更一般的答案。我们实际上对PDF文档做OCR，我们生成一个包含位置和文本块/段落的json文件。目前，我们正在研究ner/space来分析文本知识，并检查我们是否可以发现特定段落是否看起来像地址或其他东西。

然而，我们不明白的是，是否有可能将位置数据也提供给空格，或者一个接一个地提供文本块/段落而忽略位置是否更有意义，然而，在这些结构化文档中，位置通常很重要，因为它还告诉我们它是否是地址。

那么space能理解这些文档吗?

我很确定我们更可能需要使用视觉来检测段落，这将对我们的数据进行分类，而不是用于段落来识别文本(因此命名为ner)

目前还没有一种简单的方法可以将额外的数据传递给space模型，因此通常不适合使用OCR中的位置数据。然而，有一个变通的办法，它不是太糟糕。请参阅FAQ中的本节。

基本上，您需要覆盖Doc创建函数来添加一个可以传递给下游模型的特性。您还必须定制下游模型，但这也不应该太复杂。

相关内容