我想知道A.nnotate.com, Scribd, Google Docs等服务如何将pdf,.doc或任何其他文档呈现为HTML以及注释系统如何工作?
A.nnotate.com在服务器端使用xpdf以给定的缩放级别将PDF页面转换为PNG图像-这些是在浏览器中显示的内容。
文本高亮是通过从PDF中提取文本位置,然后在页面图像的顶部添加透明的覆盖层,在单词的顶部添加绝对定位的htmldiv。然后使用ajax gui将注释附加到高亮显示的文本。
其他格式(MS Word, PPT等)首先使用openoffice转换为PDF,然后再转换为PDF的图像和文本叠加。
我认为其他HTML文档网站在将PDF渲染为HTML(即页面图像+文字覆盖为透明div)方面做了类似的事情-另一种技巧是将PDF嵌入字体转换为HTML5 CSS字体,并为文本使用绝对定位的div (&