正则表达式用于在句子末尾移动句点而不是缩写



寻找一些关于如何删除句子中的句点字符但不删除缩写中的句点的想法。 例如

"The N.J. turnpike is long. Today is a beautiful day."

将更改为:

"The N.J. turnpike is long Today is a beautiful day"

这是一个

难题。 Lingua::EN::Sentence做了四分之三的尝试来解决它。它知道美式英语中的常见缩写,并有钩子供您添加您知道的其他缩写。

正如其他人所说,在一般情况下,这是一项非常困难的任务。 如果你想了解更多,你应该从阅读更多关于"句子分割"或"句子边界消歧"的信息开始,这是将文本划分为句子的任务。 以下是一些帮助您入门的链接:

  • http://en.wikipedia.org/wiki/Sentence_boundary_disambiguation
  • http://en.wikipedia.org/wiki/Text_segmentation#Sentence_segmentation
  • http://www.robincamille.com/2012-02-18-nltk-sentence-tokenizer/
  • http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html#sec-further-examples-of-supervised-classification
  • http://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html#punkt-tokenizer

为什么要根据缩写删除句子末尾的句号?大做文章:删除所有点,或者一无!

最新更新