将httpresponse转换为主数据或html free数据



我在谷歌应用程序脚本。使用-

获取数据var httpresponse = UrlFetchApp.fetch(url);var httpData = httpresponse.getContentText();

需要过滤掉数据,而不是处理httpData中的所有HTML内容,如何转换成我们在浏览器上看到的数据。简单来说就是主要内容。就好像,当我们在浏览器上打开一个页面,选择全部,复制,粘贴在记事本上…这就是我所说的主要内容

可行吗?

浏览器已呈现页面。

在Google Apps Script中,你可能需要自己替换标签。

另一种选择是使用Scriptable Headless Browser的API来获取纯文本。

经过研究,我得到了我想要的。在下面添加一行代码,删除所有的HTML标签。

var realData = httpData.replace( /(<([^>]+)>)/ig, '');

console.log(realdata)

虽然不完美,但它确实删除了95%的html。

另一个100%工作的soln -使用XmlService - https://developers.google.com/apps-script/reference/xml-service

var doc = XmlService.parse(d5); var root = doc.getRootElement();

最新更新