在sbt控制台中使用Crawler4j有效。当使用 sbt-assembly 创建 fatjar 时,Tika (?( 似乎不再能够检测页面的编码
。 java -jar crawler.jar
蒂卡缺少什么来检测编码?
ERROR edu.uci.ics.crawler4j.parser.Parser - Failed to detect the character
encoding of a document, while parsing
合并策略是
assemblyMergeStrategy in assembly := {
case PathList("META-INF", xs @ _*) => MergeStrategy.discard
case _ => MergeStrategy.first
}
删除了合并策略,现在使用标准策略。从一个坏例子中得到了那个。