我有一个编号为1的word文档。 ,2. 等。 我想从文档中提取句子。 我使用Stanford CoreNLP 4.0.0和stanford-corenlp-models-current.jar 句子的正常提取将数字检索为不同的句子。 假设文档有
- 哎呀��
- Ijkl mnop....
句子提取得到 1 作为句子,Abcd efgh 作为另一个句子。
类似地,2 作为句子,Ijkl mnop 作为另一个句子。
我尝试使用具有不同模式的 boundariesToDis丢弃属性,但得到相同的结果,并且在这种情况下也得到了错误的实体提及。
请帮助解决此问题。
提前谢谢。
我解决了这个问题。我只是设置了以下属性
props.setProperty("ssplit.eolonly", "true");