existdb如何访问pdf

我相信这很简单。。。我就是想不通。。。现有的数据库文档在内容提取方面有点模糊。。。http://exist-db.org/exist/apps/doc/contentextraction.

我有一个pdf文件，包含大约162张高分辨率图像(pdf相当大…(，我不知道如何访问任何可能创建的。。。

请不要毁了我！我刚刚开始建立一个数据库(用于Uni的版本(我很想有一个传真版(所以一个选项卡包含图像文件，一个选项卡显示转录文本(

我的目标是做一些类似于海德堡大学对"Welsche-Gast Digital"所做的事情http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image(选择的图像只是一个例子！(这张照片当点击传真时，扫描打开，当点击Transkreption时，转录的文本打开！

我对Xquery、Xpath和大多数X相关的东西都很陌生。我有一个"工作设计"放在exist db中，正在考虑TEI来标记transitpion等，我担心我将不得不在这个问题上花费相当长的时间。。。

恐怕简短的答案就是不要。

在数据库中存储pdf文件，然后尝试从中提取图像，这有点像是一场灾难。相反，您应该使用源图像(不一定是从pdf中提取的(，并将这些图像单独存储在集合中(例如resources/img(。这些图像文件就是文档实际讨论的二进制资源。

你可能想看看tei publisher在exist中创建数字版本，尤其是这个演示应用程序，了解如何用转录的文本部分呈现高分辨率传真。恐怕这比在浏览器中打开pdf要复杂得多，但Welsche Gast Digital也是如此

相关内容

最新更新

热门标签：