Crawler4J 不会检测 FatJar 中带有 sbt-assembly 的 Tika 编码



在sbt控制台中使用Crawler4j有效。当使用 sbt-assembly 创建 fatjar 时,Tika (?( 似乎不再能够检测页面的编码

 java -jar crawler.jar

蒂卡缺少什么来检测编码?

ERROR edu.uci.ics.crawler4j.parser.Parser - Failed to detect the character
encoding of a document, while parsing

合并策略是

assemblyMergeStrategy in assembly := {
  case PathList("META-INF", xs @ _*) => MergeStrategy.discard
  case _ => MergeStrategy.first
}

删除了合并策略,现在使用标准策略。从一个坏例子中得到了那个。

相关内容

  • 没有找到相关文章

最新更新