有人知道从网站收集联系方式的网络爬虫工具吗?假设我有一个www.website/contact..我想调出地址、电话号码等。我一直在寻找两个工具:cralwer4j的java开源jar和Scrapy的Python开源。但我发现它有点难以用于我的场景。
任何建议都很好。感谢
您可以在谷歌上搜索"简单网络爬虫",以找到最适合您的解决方案。在网络中有很多基于"纯python"的网络爬虫。基于sceleton代码,您添加了数据库封装。我认为最大的问题是数据库设置和保存数据
如果有100000个网站要爬网怎么办。。有没有一种方法可以抓取我的网站中的所有网站?
脚本编写没有问题。只需在一个文件中放入数百万个地址,打开它以在python或其他脚本中读取即可。然后从中一个链接接一个链接,然后爬行/刮取以获得乐趣。您可能还想将结果保存在文件(csv,json)中。
我还向您推荐一个现成的简单python爬虫。