斯坦福大学CoreNLP无法检测带有编号的句子



我有一个编号为1的word文档。 ,2. 等。 我想从文档中提取句子。 我使用Stanford CoreNLP 4.0.0和stanford-corenlp-models-current.jar 句子的正常提取将数字检索为不同的句子。 假设文档有

  1. 哎呀��
  2. Ijkl mnop....

句子提取得到 1 作为句子,Abcd efgh 作为另一个句子。

类似地,2 作为句子,Ijkl mnop 作为另一个句子。

我尝试使用具有不同模式的 boundariesToDis丢弃属性,但得到相同的结果,并且在这种情况下也得到了错误的实体提及。

请帮助解决此问题。

提前谢谢。

我解决了这个问题。我只是设置了以下属性

props.setProperty("ssplit.eolonly", "true");

最新更新