小贝子编程

A.nnotate.com背后使用了什么技术?

我想知道A.nnotate.com, Scribd, Google Docs等服务如何将pdf，.doc或任何其他文档呈现为HTML以及注释系统如何工作?

A.nnotate.com在服务器端使用xpdf以给定的缩放级别将PDF页面转换为PNG图像-这些是在浏览器中显示的内容。

文本高亮是通过从PDF中提取文本位置，然后在页面图像的顶部添加透明的覆盖层，在单词的顶部添加绝对定位的htmldiv。然后使用ajax gui将注释附加到高亮显示的文本。

其他格式(MS Word, PPT等)首先使用openoffice转换为PDF，然后再转换为PDF的图像和文本叠加。

我认为其他HTML文档网站在将PDF渲染为HTML(即页面图像+文字覆盖为透明div)方面做了类似的事情-另一种技巧是将PDF嵌入字体转换为HTML5 CSS字体，并为文本使用绝对定位的div (&

相关内容