2016-05-14 37 views
0

我有两个电子邮件testfiles:提卡元日期

  1. 已通过创建一个文件“另存为”,在Mac的邮件(这将创建一个.txt文件)
  2. 的文件已经从Mac的邮件拖动电子邮件到桌面(这将创建一个.eml文件)

创建如果我养活的文件与

curl -T filename http://localhost:9998/detect/stream 

我得到这两个文件的响应“message/rfc822”。

如果我运行

curl -T filename http://localhost:9998/meta 

我得到的元数据,但在(1)我没有得到的日期中提取,而在情况(2)我做的情况。

我明白,当然,.eml文件包含完整的原始标题,而.txt文件只包含一个非常简短的标题。但是,即使缩写头也包含一个“Date”字段,所以我认为Tika应该提取它。这是一个错误还是故意的?在后一种情况下,我有什么办法可以让Tika在情况(1)中提取日期?

我正在运行Tika-server 1.14。

回答

1

谢谢您开通TIKA-1970;底层的James'mime4j库无法解析格式为“2016年5月16日09:30:32 GMT + 1”的日期。我们将添加额外的日期解析代码来捕获mime4j在Tika级别无法识别的日期格式。

再次感谢您注意并在我们的JIRA上开放问题。