查找<forms>网站上使用的所有内容



是否有一个爬网程序可以在我的网站中找到(并列出表单操作等)所有有表单的页面?

我想用唯一的操作记录所有页面,然后进一步审核。

Norconex HTTP Collector是一个开源的网络爬虫,它当然可以帮助您。它的"导入器"模块有一个"TextBetweenTagger"功能,可以提取任何开始和结束文本之间的文本,并将其存储在您选择的元数据字段中。然后,您可以过滤掉那些没有提取此类文本的文本(请查看EmptyMetadataFilter选项)。

您可以在不编写代码的情况下完成此操作。就存储结果而言,该产品使用"Committers"。一些提交器是现成的(包括文件系统提交器),但您可能希望编写自己的提交器,以便在任何您喜欢的地方(例如,在数据库中)"提交"已爬网的数据。

查看其配置页面以了解想法。

相关内容

最新更新