我有两个电子邮件测试文件:
- 通过在Mac Mail中使用"另存为"创建的文件(这将创建一个.txt文件)
- 通过将电子邮件从Mac Mail拖动到桌面创建的文件(这将创建一个.eml文件)
如果我用馈送文件
curl -T filename http://localhost:9998/detect/stream
我得到两个文件的响应"message/rfc822"。
如果我运行
curl -T filename http://localhost:9998/meta
我得到了元数据,但在(1)的情况下,我没有提取日期,而在(2)的情况中,我提取了。
当然,我知道.eml文件包括完整的原始标头,而.txt文件只包括一个非常缩写的标头。然而,即使是缩写的标题也包含一个"日期"字段,所以我认为Tika应该提取它。这是错误还是故意的?在后一种情况下,我能做些什么让Tika提取情况(1)中的日期吗?
我正在运行Tika服务器1.14。
感谢您打开TIKA-1970;James的mime4j库无法解析格式为"2016年5月16日09:30:32 GMT+1"的日期。我们将添加额外的日期解析代码来捕获mime4j在Tika级别无法识别的日期格式。
再次感谢您注意到并在我们的JIRA上打开一个问题。