基本上我面临的问题,crawler4j不识别页面上的所有链接。
说例如,页面上只有5个链接只有3个链接被识别并因此获取。休息2甚至没有被识别。
预期输出是什么?您看到了什么?页面中的所有链接均应识别,以便可以获取它们
您正在使用哪种版本?crawler4j 4.1
请在下面提供任何其他信息。我在链接中发现的唯一差异是未认识到的是这些链接在其中有角度。
ex。
<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>
是的,这似乎是crawler4j页面中的错误。
它找到了标签,然后搜索关闭括号 - 这是我假设的故障点。
请提交给新的Crawler4J网站 - 在GitHub上:https://github.com/yasserg/crawler4j/issues
谢谢