如何从网站收集联系信息

有人知道从网站收集联系方式的网络爬虫工具吗？假设我有一个www.website/contact..我想调出地址、电话号码等。我一直在寻找两个工具：cralwer4j的java开源jar和Scrapy的Python开源。但我发现它有点难以用于我的场景。

任何建议都很好。感谢

您可以在谷歌上搜索"简单网络爬虫"，以找到最适合您的解决方案。在网络中有很多基于"纯python"的网络爬虫。基于sceleton代码，您添加了数据库封装。我认为最大的问题是数据库设置和保存数据

如果有100000个网站要爬网怎么办。。有没有一种方法可以抓取我的网站中的所有网站？

脚本编写没有问题。只需在一个文件中放入数百万个地址，打开它以在python或其他脚本中读取即可。然后从中一个链接接一个链接，然后爬行/刮取以获得乐趣。您可能还想将结果保存在文件（csv，json）中。

我还向您推荐一个现成的简单python爬虫。

相关内容