我已经通过网站复印机软件下载了一些网站。我想从所有页面中提取一些信息。
假设有很多产品页面,我想从所有页面中收集产品信息并将其存储在Excel文件中。
我想知道这样做的可能方法。我的朋友告诉我,他可以编写一些脚本并实现它,但我不明白任何脚本如何解决整个目的。
是否有任何免费软件或任何可以完成此工作的代码。我非常了解Java,如果我可以通过编写代码来实现Java,请提供一些指导。
您可能不想使用Java,而是因为产品页面是网页,因此您可能会更舒适地使用浏览器本地语言。如果是我,我会这样接近:
1-写一个加载所有页面的主JS脚本,一次。
2-在每页上,选择该产品信息(可能使用$('#productid'等)等)
3-将它们纳入JSON格式,并在某些第三方库中导出到CSV(或您自己编写一些代码)。一个这样的库的示例:http://www.zachhunter.com/2011/06/json-to-csv/
看一下jsoup,java库,用于html文档。
您会在他们的网站上找到大量文档。
您将需要了解CSS选择器以从文档中选择特定元素,示例请参见http://jsoup.org/cookbook/extracting-data/selector-syntax
,然后将收集的数据作为逗号分隔值写入可以加载到Excel的文本文件中。