获取URL的返回代码python-urllib



我有一个URL列表,其中一些现在不起作用。我想解析这个列表,获得这些URL的返回代码,并将它们存储在数据帧中。我有以下代码:

for url in df['URL'][]:
print(url)
try:
#print(urllib2.urlopen(url).getcode())
df['returncode']=urllib2.urlopen(url).getcode()
except:
df['returncode']='Obsolete'
#print('obsolete')

我得到的是一列"过时的"。

df['returncode']:
0         Obsolete
1         Obsolete
2         Obsolete
3         Obsolete
4         Obsolete
5         Obsolete
6         Obsolete
7         Obsolete
8         Obsolete
9         Obsolete
10        Obsolete
11        Obsolete

而如果我打印这些值,我可以看到不同的返回代码。

http://study.com/odfv.html
obsolete
http://www.meghansfashion.com/uploads/2/1/2/9/21295692/2_75_orig.png
200
http://p16.muscdn.com/img/tos-maliva-p-0068/8ab65f6aac844cdf83526b5662720be3~c5_300x400.jpeg
200
http://config.88-f.net/hb/c1/pxbfwsp
obsolete

我在这里做错了什么?

在DataFrame中输入结果的方式不起作用。命令

df['returncode']= ...

将值放入DataFrame的行中。所以你在最后看到的是最后一个值的11倍。

为了改进这一点,您需要将结果放入一个特定的行中。您可以对行进行迭代,如下所示:

for index, row in df.iterrows():
url = row['URL']
print(url)
try:
#print(urllib2.urlopen(url).getcode())
row['returncode']=urllib2.urlopen(url).getcode()
except:
row['returncode']='Obsolete'
#print('obsolete')

获取URL的返回代码python urllib


您可以使用请求获取url上的http状态代码,即:

import requests
response = requests.get("https://google.com")
print (response.status_code)
# 200

您可以使用urllib2获取http响应代码。你是这样,您只需要正确地处理异常。urllib2当收到错误http响应时引发异常。

import urllib2
urls = ['http://www.google.com', 'http://google.com/does-not-exist']
for url in urls:
try:
res = urllib2.urlopen(url)
code = res.getcode()
except urllib2.HTTPError as err:
code = err.getcode()
print('{}: {}'.format(url, code))

这将输出:

http://www.google.com: 200
http://google.com/does-not-exist: 404

最新更新