关于pdf/docx文件的ner/空格及其文本位置的一般性问题



我正在研究ner/space,并有一个更一般的答案。我们实际上对PDF文档做OCR,我们生成一个包含位置和文本块/段落的json文件。目前,我们正在研究ner/space来分析文本知识,并检查我们是否可以发现特定段落是否看起来像地址或其他东西。

然而,我们不明白的是,是否有可能将位置数据也提供给空格,或者一个接一个地提供文本块/段落而忽略位置是否更有意义,然而,在这些结构化文档中,位置通常很重要,因为它还告诉我们它是否是地址。

那么space能理解这些文档吗?

我很确定我们更可能需要使用视觉来检测段落,这将对我们的数据进行分类,而不是用于段落来识别文本(因此命名为ner)

目前还没有一种简单的方法可以将额外的数据传递给space模型,因此通常不适合使用OCR中的位置数据。然而,有一个变通的办法,它不是太糟糕。请参阅FAQ中的本节。

基本上,您需要覆盖Doc创建函数来添加一个可以传递给下游模型的特性。您还必须定制下游模型,但这也不应该太复杂。

最新更新