我在谷歌工作表中使用javascript,但如果可能的话,我可以使用.net技术来解决这个问题,因为我还没有在谷歌工作单中看到这样做的方法。
我想从网站上捕获页面内容。信息不是静态的。根据我通过的参数,我会得到不同的结果。
例如,https://www.hapag-lloyd.com/en/online-business/tracing/tracing-by-booking.html?blno=HLCUEUR181027806#
这返回了与提单编号HLCUEUR181027806相关的页面,然后我可以使用Google Sheets的ImportXML功能解析该页面。
我似乎无法使用GoogleSheet的ImportXML函数,因为它不适用于根据提供的参数更改内容的动态页面。
问题是,这是否可以通过任何方式,使用任何技术,以程序方式发送对动态页面的请求,等待结果返回,并捕获其输出,这样我就可以解析它,并从中找到关键信息
我对.net、c有一定的了解,同时也在学习网络开发。
参见相关问题:
从ImportXML获取日期时出现问题。需要选项
您需要一个无头浏览器,它可以加载页面并等待其呈现(原因是javascript正在客户端中呈现页面),然后解析html。
你可以从这个页面中选择任何支持.net的库
你的另一个选择是查看流量并使用私人Api(效率更高,但可能更难)
我正在使用autoit。这是一种免费的脚本语言。这是解决这个问题的正确技术。