用于技术分析的蜘蛛 - 识别内容管理系统



我正在寻找一种网络蜘蛛,它可以抓取链接(从特定网址开始并跟踪指向其他域的链接)并识别具有名为"abc"的目录的网站,该目录的页面标题包含"123"。

这听起来可能很阴暗,所以让我解释一下,它是一种识别使用特定 CMS 的网站的工具,这样我就可以为 CMS 支持服务建立潜在客户列表。另一种方法是蜘蛛,它可以识别此CMS熟悉的html中某些字符串的出现。

这些服务由 builtwith.com 和 wappalyzer.com 提供,尽管这些商业解决方案非常昂贵,我想首先探索开源解决方案。

考虑使用搜索引擎。

许多搜索引擎允许查询,例如 intitle:123 inurl:abc .

但请注意,它们往往会阻止已知针对安全问题的请求。就像Santy和myDoom蠕虫一样,它们依靠Google来查找易受攻击的phpBB安装。

自己清理所有的互联网将花费很多时间,你知道......

如果您不需要最新数据,并且有一些闲钱,您也可以在 AWS 上处理 commonsCrawl。

最新更新