crawler4j不识别页面上的所有链接

基本上我面临的问题，crawler4j不识别页面上的所有链接。

说例如，页面上只有5个链接只有3个链接被识别并因此获取。休息2甚至没有被识别。

预期输出是什么？您看到了什么？页面中的所有链接均应识别，以便可以获取它们

您正在使用哪种版本？crawler4j 4.1

请在下面提供任何其他信息。我在链接中发现的唯一差异是未认识到的是这些链接在其中有角度。

ex。

<a title="some text" href="http://www.example.com/abc/xyz-<sometext>-abc-xyz/abc_xyz" >some text</a>

是的，这似乎是crawler4j页面中的错误。

它找到了标签，然后搜索关闭括号 - 这是我假设的故障点。

请提交给新的Crawler4J网站 - 在GitHub上：https://github.com/yasserg/crawler4j/issues

谢谢

相关内容