在python中有效地获取url的状态代码,替代for循环



我想检查网址列表(在数据帧 df 的一列中(以获取其状态代码(404、403 和 200 似乎是有趣的(。我定义了一个完成这项工作的函数。但是,它使用效率低下的 for 循环(我有一长串 url!

有没有人对如何更有效地做到这一点有提示?理想情况下,返回的状态代码也会显示在数据帧的新列中,例如 df['status_code_url']。

def url_access(df, column):
    e_404 =0
    e_403 =0
    e_200 =0
    for i in range(0, len(df)):
        if requests.head(df[column][i]).status_code == 404:
            e_404= e_404+1
        elif requests.head(df[column][i]).status_code == 403:
            e_403 = e_403 +1
        elif requests.head(df[column][i]).status_code == 200:
            e_200 = e_200 +1
        else:
            print(requests.head(df[column][i]).status_code)
    return ("Statistics about " + column , '{:.1%}'.format(e_404/len(df)) 
            + " of links to intagram post return 404", '{:.1%}'.format(e_403/len(df)) 
            + " of links to intagram post return 403", '{:.1%}'.format(e_200/len(df)) 
            + " of links to intagram post return 200")

多谢!

使用 Pandasapplygroupby -

def url_access(x):
    return requests.head(x).status_code

df['Status'] = df['url'].apply(url_access)
dfcount = df.groupby('Status')['url'].count().reset_index()

pandas.DataFrame.apply(或者更确切地说,正常的requests库(一次只能发出一个请求。要并行执行多个请求,可以使用requests_futures(使用 pip install requests-futures 安装(:

import pandas as pd
from requests_futures.sessions import FuturesSession
def get_request(url):
    session = FuturesSession()
    return session.head(url)

def get_status_code(r):
    return r.result().status_code
if __name__ == "__main__":
    urls = ['http://python-requests.org',
            'http://httpbin.org',
            'http://python-guide.org',
            'http://kennethreitz.com']
    df = pd.DataFrame({"url": urls})
    df["status_code"] = df["url"].apply(get_request).apply(get_status_code)

之后,您可以使用例如groupby,正如@Aritesh在他们的答案中所建议的那样:

stats = df.groupby('status_code')['url'].count().reset_index()
print(stats)
#    status_code  url
  0          200    1
  1          301    3

有了这个,您可能还想添加一些针对连接错误和超时的保护:

import numpy as np
import requests
def get_request(url):
    session = FuturesSession()
    return session.head(url, timeout=1)
def get_status_code(r):
    try:
        return r.result().status_code
    except (requests.exceptions.ConnectionError, requests.exceptions.ReadTimeout):
        return 408 # Request Timeout
ips = np.random.randint(0, 256, (1000, 4))
df = pd.DataFrame({"url": ["http://" + ".".join(map(str, ip)) for ip in ips]})
df["status_code"] = df["url"].apply(get_request).apply(get_status_code)
df.groupby('status_code')['url'].count().reset_index()
#    status_code  url
# 0          200    3
# 1          302    2
# 2          400    2
# 3          401    1
# 4          403    1
# 5          404    1
# 6          408  990

基本上,你的任务似乎是:

  1. 获取网址状态代码
  2. 收集所有
  3. 计算百分比

第一步,您使用:

def get_code(url):
    return requests.head(url).status_code

有关将此功能应用于数据帧列的第二步,请参阅https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html

resp_df = df[column].apply(get_code, axis=1) 

对于第三步,您可以使用列上的操作来计算百分比:

resp_df[resp_df == 404].sum() / len (resp_df) 

(注意代码未运行(

最新更新