我正在尝试构建一个小型python应用程序,该应用程序可以在加载网页时检测下载的资源(例如gif,媒体文件等(。理想情况下,这将类似于Google Chrome Web浏览器中的Chrome Dev-tools组件,可以在其中单击"网络"选项卡以获取动态下载的数据和资源。
我试图看看我是否可以通过Python Selenium做到这一点,但是我不相信通过查看动态下载的资源来深入了解。
有人能够确认这是否可以在 Python 中完成吗?任何帮助/建议不胜感激。
谢谢。
好吧,要做你想做的事情,你基本上需要编写函数,从服务器对你的响应中提取应该呈现的内容(当然需要渲染,它需要被获取((如果是网站,整个html
内容 + 响应标头(。
例如,您需要使用如下所示的正则表达式从 html 中提取所有图像链接:
/(alt|title|src)=("[^"]*")/gi;
(参考资料(
您还需要提取应该加载的 js 文件以使 html 文件正常工作。
您可以使用不同的工具来提取这些类型的文件。
有人能够确认这是否可以在 Python 中完成吗?
是的
编辑
我认为最好提到您也应该特别注意标题。饼干肯定是最重要的。