我在谷歌应用程序脚本。使用-
获取数据var httpresponse = UrlFetchApp.fetch(url);
var httpData = httpresponse.getContentText();
需要过滤掉数据,而不是处理httpData中的所有HTML内容,如何转换成我们在浏览器上看到的数据。简单来说就是主要内容。就好像,当我们在浏览器上打开一个页面,选择全部,复制,粘贴在记事本上…这就是我所说的主要内容
可行吗?
浏览器已呈现页面。
在Google Apps Script中,你可能需要自己替换标签。
另一种选择是使用Scriptable Headless Browser的API来获取纯文本。
经过研究,我得到了我想要的。在下面添加一行代码,删除所有的HTML标签。
var realData = httpData.replace( /(<([^>]+)>)/ig, '');
console.log(realdata)
虽然不完美,但它确实删除了95%的html。
另一个100%工作的soln -使用XmlService - https://developers.google.com/apps-script/reference/xml-service
var doc = XmlService.parse(d5); var root = doc.getRootElement();