我正在研究用RSelenium构建的刮板。许多任务使用 Python 更容易完成,因此我设置了一个 .可以访问 R 和 Python 代码块的 rmd 文件。
抓取器的 R 侧在 Chrome 中打开一个网站,登录,然后访问和抓取登录墙后面的各个页面。(这是在网站所有者的许可下完成的,他们宁愿用户自己抓取数据,也不愿将可下载的数据放在一起。
我还需要从这些页面下载文件,这是我在 RSelenium 中不断尝试的任务,但反复回到 Python 解决方案。
我不想花时间用 Python 重写代码,因为它相当健壮,但我尝试使用 Python 导致打开一个新的驱动程序,这将启动一个不再登录的新会话。有没有办法让 Python 代码块访问由 RSelenium 驱动的现有驱动程序/会话?
(如果此解决方案没有成功,我将针对我的 RSelenium 下载问题提出一个单独的问题。
据我所知,在用户Jortega的帮助下,Selenium不支持与已经打开的浏览器进行交互,并且Python无法访问通过R创建的现有会话。
我的解决方案是使用 Python 重写抓取器。