用于技术分析的蜘蛛 - 识别内容管理系统 - Spider for technology profiling - identify Content Management System 小贝子编程网

我正在寻找一种网络蜘蛛，它可以抓取链接（从特定网址开始并跟踪指向其他域的链接）并识别具有名为"abc"的目录的网站，该目录的页面标题包含"123"。

这听起来可能很阴暗，所以让我解释一下，它是一种识别使用特定 CMS 的网站的工具，这样我就可以为 CMS 支持服务建立潜在客户列表。另一种方法是蜘蛛，它可以识别此CMS熟悉的html中某些字符串的出现。

这些服务由 builtwith.com 和 wappalyzer.com 提供，尽管这些商业解决方案非常昂贵，我想首先探索开源解决方案。

考虑使用搜索引擎。

许多搜索引擎允许查询，例如 intitle:123 inurl:abc .

但请注意，它们往往会阻止已知针对安全问题的请求。就像Santy和myDoom蠕虫一样，它们依靠Google来查找易受攻击的phpBB安装。

自己清理所有的互联网将花费很多时间，你知道......

如果您不需要最新数据，并且有一些闲钱，您也可以在 AWS 上处理 commonsCrawl。

用于技术分析的蜘蛛 - 识别内容管理系统