向文本添加标点符号



我正在寻找一种在句子中添加标点符号的方法,如下所示:

hey mike how are you -> Hey Mike, how are you?

如果该模型能够处理正确的外壳,我也不会生气。我过去使用过nltkspacyCodeNLP,但我不记得(或找到(任何可以让我增强这样的句子的东西。

有没有办法对任何或那些库做到这一点?

根据这篇文章,它在语音识别(用于转录(和自然语言处理(NLP(中进行了研究。

可以在此处找到引用的实现之一。

将您的示例句子作为演示中的输入结果为"嘿迈克,你好吗"。如您所见,结果更接近某人的预期,但并不完全相同。

在给定字符串中添加正确标点符号的任务,在研究界通常称为"标点符号恢复"。 nltkspacyCodeNLP没有这个特性。

https://github.com/ottokart/punctuator2。 Simon 建议的是 Python 2.7 + Theano + MIT 许可证 + 字级预测 + 2016 年发布。一个稍微更新的"包"https://github.com/geyang/deep-auto-punctuation(Pytorch,字符级预测 + 发布于 2017 年,但没有许可证(。

最新更新