StormCrawler的Apache Tika集成是否支持文档的语言检测?有没有一个Tika生成的变量列表,我可以将其包含在StormCrawler的输出中?
简短的答案是否定的,但您可以使用langid模块,上次我检查它比Tika中的模块更快、语言更多、更准确。
我不知道Tika返回的值的详尽列表。
StormCrawler的Apache Tika集成是否支持文档的语言检测?有没有一个Tika生成的变量列表,我可以将其包含在StormCrawler的输出中?
简短的答案是否定的,但您可以使用langid模块,上次我检查它比Tika中的模块更快、语言更多、更准确。
我不知道Tika返回的值的详尽列表。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium