生成数百个段落的语法分析



我记录了1000条(例如)客户支持说明。

这些笔记中的每一个(长度从25个字符到500个字符不等)都是由用户输入到系统中的(用户将创建多个笔记),我希望能够通过分析文本生成相当于"语法KPI"的内容。

我不想对它们进行拼写检查,而是要注意基本语法的一致性,比如大写字母和标点符号(如果可能的话,请更正标点符号)。将每个注释的冗长程度纳入所述"KPI"的输出中也是一个有趣的转折。

在不沉迷于编程语言的情况下,什么是最有效的方式/方法来创建不是100%准确的表示,而是足以在这些用户提交的笔记中看到语法的异常值?

我没有这样的经验。

感谢

Python软件基金会主任的这篇演讲实际上是关于从正式文档(专利许可证)中提取语义的:

http://vimeo.com/53058803

本文描述了从书面文本中提取情感的技术:

http://goo.gl/wY9sW

最新更新