电子邮件中的Tika元数据未命中日期



我有两个电子邮件测试文件:

  1. 通过在Mac Mail中使用"另存为"创建的文件(这将创建一个.txt文件)
  2. 通过将电子邮件从Mac Mail拖动到桌面创建的文件(这将创建一个.eml文件)

如果我用馈送文件

curl -T filename http://localhost:9998/detect/stream

我得到两个文件的响应"message/rfc822"。

如果我运行

curl -T filename http://localhost:9998/meta

我得到了元数据,但在(1)的情况下,我没有提取日期,而在(2)的情况中,我提取了。

当然,我知道.eml文件包括完整的原始标头,而.txt文件只包括一个非常缩写的标头。然而,即使是缩写的标题也包含一个"日期"字段,所以我认为Tika应该提取它。这是错误还是故意的?在后一种情况下,我能做些什么让Tika提取情况(1)中的日期吗?

我正在运行Tika服务器1.14。

感谢您打开TIKA-1970;James的mime4j库无法解析格式为"2016年5月16日09:30:32 GMT+1"的日期。我们将添加额外的日期解析代码来捕获mime4j在Tika级别无法识别的日期格式。

再次感谢您注意到并在我们的JIRA上打开一个问题。

相关内容

  • 没有找到相关文章

最新更新