我正在使用Foxit SDK从Pdf文档中提取文本。
一切都还可以,但当我用其他语言而不是英语提取pdf时,我不会得到正确的输出。
我也在java中使用过PDFBox,但这给了我最差的输出,Foxit SDK的输出比PDFBox更好。
有其他图书馆可以解决这个问题吗。。?或者还有其他解决方案。
就个人而言,如果你想把它做好,你必须为此付费。ComponentOne有一个用于WPF的PDFViewer。不确定你使用的是什么框架,因为你的标签缺少一个。
用于WPF 的ComponentOne PDF查看器
您可能想尝试Quick PDF Library的试用版,看看它在文档上的表现。http://www.quickpdflibrary.com
对于大多数PDF文件,QP.GetPageText(7)或GetPageText(8)都会返回非常好的结果。
安德鲁。
免责声明:我为Quick PDF Library做一些咨询工作。
如果你在windows上,你可以使用adobe提供的IFilter。我使用了adobe随adobe阅读器8提供的IFilter。这是我使用的确切示例的链接
http://www.codeproject.com/Articles/13391/Using-IFilter-in-C
表现还可以(我想。我没有用过很多其他方法)。一个400页的PDF大约需要15秒。