在RTF文件中提取obj数据的最简单方法



我想提取RTF文件中嵌入的OLE对象。我更喜欢用Java实现它,所以我已经阅读了文档&Apache Tika RTFParser (1.25 &2.0-ALPHA),发现Tika只是为搜索目的提取文本,而不能获取obj数据。也许基于TextExtractor编写一些代码是可行的。

然后我也尝试了这篇文章在c#,但错误的if (type != 3) // 3 is file, 1 is link在packagedoobject . extract .

谁能帮助我找出什么是最简单的方法(更少的代码)提取对象数据在RTF文件?跨平台和服务器端解决方案优先(Java或。net-core)。但是使用Word。在c#中的应用并不可观,因为它依赖于Word客户端,有时会意外终止。

如果您想使用Apache Tika提取原始字节,请尝试使用Tika app的-z命令行选项或使用Tika -server的/unpack端点。是的,Tika专注于文本/元数据提取,但它也可以用于提取原始嵌入文件。

您可能会发现这是一个有用的起点:https://github.com/joniles/mpxj/blob/master/src/main/java/net/sf/mpxj/mpp/RTFEmbeddedObject.java#L149

这是为了让MPXJ的用户提取嵌入在RTF笔记中的对象。

相关内容

  • 没有找到相关文章

最新更新