句子提取



假设我有以下内容:

  • 句子列表(不带标点符号)
  • 一长串单词(没有标点符号)

我的目标是将这个字符串分割成句子块,不包括不能构成句子的单词。

我本打算为这个问题想出一个特别的解决方案,但觉得这可能是一个众所周知的问题(我的意思是一个建议实现一个有效的现有算法的问题,如最短路径问题,等等…)

那么,这有算法吗?

编辑:

例句:

hello
how are you
what do you want
are you hungry
do you want to eat
are you thirsty
do you want to drink
what is your name
good morning
good night

示例输入字符串:

do do how are you eat

因此,how are you应该是输出。

(输入样本可能很奇怪,因为它是语音识别器输出)

谢谢。

这里讨论了一些免费的工具:

http://metaoptimize.com/qa/questions/7001/the-best-sentence-segmentation-tool-until-now

最新更新