Python:从网页获取加载的资源(如chrome Dev工具)



我正在尝试构建一个小型python应用程序,该应用程序可以在加载网页时检测下载的资源(例如gif,媒体文件等(。理想情况下,这将类似于Google Chrome Web浏览器中的Chrome Dev-tools组件,可以在其中单击"网络"选项卡以获取动态下载的数据和资源。

我试图看看我是否可以通过Python Selenium做到这一点,但是我不相信通过查看动态下载的资源来深入了解。

有人能够确认这是否可以在 Python 中完成吗?任何帮助/建议不胜感激。

谢谢。

好吧,要做你想做的事情,你基本上需要编写函数,从服务器对你的响应中提取应该呈现的内容(当然需要渲染,它需要被获取((如果是网站,整个html内容 + 响应标头(。

例如,您需要使用如下所示的正则表达式从 html 中提取所有图像链接:

/(alt|title|src)=("[^"]*")/gi;

(参考资料(

您还需要提取应该加载的 js 文件以使 html 文件正常工作。

您可以使用不同的工具来提取这些类型的文件。

有人能够确认这是否可以在 Python 中完成吗?

是的

编辑

我认为最好提到您也应该特别注意标题。饼干肯定是最重要的。

相关内容

  • 没有找到相关文章

最新更新