Python 请求:如何使用 POST 进行身份验证并通过代理访问文件

我正在尝试通过大学代理下载研究文章pdf，我需要登录。我尝试按照[此答案][1]进行操作，但结果下载仅包含登录网站。

文章网址可能如下所示：https://iopscience.iop.org/article/10.3847/2041-8213/aaf743/pdf。(这个恰好是开放访问，但其他需要以这种方式访问(。
在浏览器中，我通过代理访问它：https://login.emedien.ub.my-university.edu/login?qurl=https%3a%2f%2fiopscience.iop.org%2farticle%2f10.3847%2f2041-8213%2faaf743%2fpdf.此 url 存储在变量中long_proxy下面的代码示例中。

在浏览器中，这将打开一个登录表单：

<form action="/login" method="post">
<input name="ezproxycsrftoken" type="hidden" value="aBcDeFgH12345"/>
<input name="url" type="hidden" value="https://iopscience.iop.org/article/10.3847/2041-8213/aaf743/pdf">
<table>
<tr><td>University Username:</td><td><input name="user" style="width:250px" tabindex="1" type="text"/></td></tr>
<tr><td>Password:</td><td><input name="pass" style="width:250px" tabindex="2" type="password"/></td></tr>
</table>
</input>
</form>

输入用户名/密码后，我被转发到

https://iopscience-iop-org.emedien.ub.uni-muenchen.de/article/10.3847/2041-8213/aaf743/pdf

这将在浏览器中显示 PDF。我在下面的代码示例中short_proxy调用此 url。

我尝试通过以下方式使用 python 请求来做到这一点：

user_name = 'myname'
passwd = 'mypassword'
with requests.Session() as session:
session.headers.update({'User-Agent': 'Mozilla/5.0'})
# Parse the input form for the hidden input
r2      = requests.get(long_proxy)
soup    = bs4.BeautifulSoup(r2.text, "html.parser")
form    = soup.find('form')
hidden  = form.find('input', attrs={'type':'hidden', 'name':'ezproxycsrftoken'}).attrs['value']
url_res = form.find('input', attrs={'type':'hidden', 'name':'url'}).attrs['value']
# set up the login
payload = {
'user': user_name,
'pass': passwd,
'ezproxycsrftoken': hidden,
'url': url_res
}
# post login
post = session.post(login, data=payload)
# get data
r3 = session.get(short_proxy)
with open('file.pdf', 'wb') as fid:
fid.write(r3.content)

但是，下载的文件实际上不是PDF，而是登录页面的html代码。

任何想法如何获取 PDF？

[1]: https://stackoverflow.com/questions/37816565/python-authentication-with-requests-library-via-post

您使用requests.Session()来保存网站为您提供的cookie/会话，但您使用requests.get()而不是session.get()用于您获取longproxy的初始请求。改变你的

r2      = requests.get(long_proxy)

自

r2      = session.get(long_proxy)

应该解决您的问题。但是，我无法验证这一点。

另请注意，您的long_proxy

https://login.emedien.ub.uni-muenchen.de/login?qurl=https://iopscience.iop.org/article/10.3847/2041-8213/aaf743/

只是登录 URL，后跟 PDF URL。所以你真的不必拿那个。
这可以为您节省一些额外的请求/执行时间

相关内容

最新更新

热门标签：