我有很多旧网站上的产品描述,我想以某种方式将它们汇编起来,并将它们转换为excel文件,以便导入新网站的CMS。
我真正的问题是:有没有任何方法可以获得所有产品页面上所有<div id="description">
标签中包含的所有文本片段(我从网站的FTP服务器上以HTML文件的形式下载了这些页面)?
所有需要执行此操作的方法都包含在HTMLDocument类中。
更具体地说,看看body
属性及其方法。
另一个问题是非常密切相关的,应该明确地加以考虑