我正在使用基于流形cf的windows fileshare连接器来抓取文件。但是,Manifold CF也会更新它读取的所有文件的lastAccessTime。
我想读取所有文件而不更新它们的lastAccessTime.
我需要更新歧管CF中的哪些文件以及如何实现这一点?
ManifoldCF目前不维护与SharedDriveConnector爬行的共享文件的最后访问时间戳。它使用jcifs,不支持读取或恢复被触摸文件的最后访问时间戳。
但是,正如您已经注意到的,Google Search Appliance (GSA)以某种方式设法保留了最后一次访问的时间戳。
在GSA的版本3中,它的文件系统连接器依赖于一个打过补丁的jcifs版本。(见github.com/googlegsa/filesystem.v3)该版本的发布说明表明,连接器也能够保留时间戳。(见发行说明)
因此,可以通过使用google的jcifs补丁版本来修补歧化cf以保留最后修改的时间戳。进一步讨论此类问题的最佳方法是将此需求发布到manifold - cf邮件列表user@manifoldcf.apache.org,或者在Issue Tracker
中打开一个特性请求。更新2017-07-13该特性在CONNECTORS-1429中讨论过,不会实现。
一个有趣的事实是,在版本4中,GSA离开了jcifs。相反,GSA连接器依赖于本地windows设施。
另一个旁注:为了能够更新上一次访问时间戳,用于爬行的用户需要Write基本属性权限。(见GSA文档)