我试图使用crawler4j抓取网站。我能够按照crawler4j网站上的说明进行操作。完成后,它将创建一个包含两个不同.lck文件的文件夹,一个. jdbc文件和一个.info.0文件。
我试图使用我在这个答案中提供的代码在文件中读取文件,但它一直失败。我以前使用过相同的函数来读取文本文件,所以我知道代码是有效的。
我也发现几个月前有人问过同样的问题。他们一直没有得到答案。
为什么我不能用我的代码打开和读取这些。lck文件到内存?
Crawler4j使用BerkeleyDB存储抓取信息。
可以在命令行中使用DB utils访问数据。
如果您想要访问Java代码中的数据,您只需导入BerkeleyDB库(Maven指令在那里)并遵循如何打开DB的教程。