我相信这很简单。。。我就是想不通。。。现有的数据库文档在内容提取方面有点模糊。。。http://exist-db.org/exist/apps/doc/contentextraction.
我有一个pdf文件,包含大约162张高分辨率图像(pdf相当大…(,我不知道如何访问任何可能创建的。。。
请不要毁了我!我刚刚开始建立一个数据库(用于Uni的版本(我很想有一个传真版(所以一个选项卡包含图像文件,一个选项卡显示转录文本(
我的目标是做一些类似于海德堡大学对"Welsche-Gast Digital"所做的事情http://digi.ub.uni-heidelberg.de/diglit/cpg389/0190/image(选择的图像只是一个例子!(这张照片当点击传真时,扫描打开,当点击Transkreption时,转录的文本打开!
我对Xquery、Xpath和大多数X相关的东西都很陌生。我有一个"工作设计"放在exist db中,正在考虑TEI来标记transitpion等,我担心我将不得不在这个问题上花费相当长的时间。。。
恐怕简短的答案就是不要。
在数据库中存储pdf文件,然后尝试从中提取图像,这有点像是一场灾难。相反,您应该使用源图像(不一定是从pdf中提取的(,并将这些图像单独存储在集合中(例如resources/img(。这些图像文件就是文档实际讨论的二进制资源。
你可能想看看tei publisher在exist中创建数字版本,尤其是这个演示应用程序,了解如何用转录的文本部分呈现高分辨率传真。恐怕这比在浏览器中打开pdf要复杂得多,但Welsche Gast Digital也是如此