遍历网站的算法包括表格



我很成功地记录了网站的所有链接,但错过了一些链接,这些链接只能在表单发布(例如登录)中可见。

我所做的是在没有登录的情况下记录所有链接。并采用表格值。然后我发布了数据并记录了新链接,但是在这里,我错过了其他表格和链接,这些表格和链接中未发布的链接。

请建议任何有效的算法,以便我可以通过发布表单数据来获取所有链接。

预先感谢。

一组网页中的链接可以看作是树图,因此您可以使用各种树遍历算法,例如深度第一和广度首次搜索来查找所有链接。链接和相关的表单数据可以根据您使用的遍历算法保存在队列或堆栈中。

最新更新