使用c#识别从pdf文档中提取的文本的段落和/或页面边界



我正在开发应用程序,需要从pdf中识别段落
我需要提取文本并识别段落
是否有任何方法可以使用c#从pdf文档中提取文本并识别提取文本的段落和/或页面边界

PDF是一种二进制格式,请尝试使用其中一种读取:
http://www.pdflib.com/
http://sourceforge.net/projects/itextsharp/

一旦你有了流,你应该能够检查
换行符/回车符(\n/\r)或制表符\t以查找新段落。

最新更新