在读取 AFP 文件和提取内容和元数据方面需要抢占先机



我被指派从事这个特定的项目,在那里我们将获得AFP(高级功能演示(文件,我们需要获取文档,即内容和相应的元数据。我一直在研究AFP(高级功能演示(文件格式,实际上没有任何关于我应该如何继续执行任务的有用资源。

到目前为止,我几乎没有任何信息,也不知道该从哪里继续。我查看了一些开源项目,发现这个: https://github.com/yan74/afplib

我尝试运行它..但它不适用于我拥有的示例 AFP 文件。

真的需要一些关于我应该通过哪些资源才能完成这个项目的见解。

我需要用Java编写代码,并且已经通过一些许可软件来做同样的事情,如PROARCHIVER和PAPYRUS。

提前致谢

AFP 是一种简单的格式,它由结构化字段组成,您的第一步是解码它们,下载以下内容:"混合对象文档内容架构参考"阅读前 50 页并编写代码将 afp 拆分为结构化字段,以便轻松创建文件转储。

之后,如果您想提取图像 法新社世界称它们为 IOCA,因此您需要: Image Object Content architecture reference

如果要提取文本(称为 PTX(,则需要: P怨恨 Text 对象内容体系结构参考

干得好

相关内容

  • 没有找到相关文章

最新更新