从python中每10分钟刷新一次的网站上抓取数据



我对web抓取和python很陌生。我正在做一个项目,该项目要求我从每10分钟刷新/更新一次数据的网站上抓取数据。我能够抓取当前10分钟的数据,但当数据刷新时,以前的数据不再有效。我需要3件事的帮助-

  1. 网站顶部有一个输入时间戳。如何更改输入中的时间以仅获取特定时间段的数据?在此处输入图像描述

  2. 我当前的代码是-

import requests
import pandas as pd
import datetime as dt
from datetime import datetime

URL1 = "URL.com"

tables1= pd.read_html(URL1)

print("There are : ",len(tables1)," tables1")

PartUsage=pd.DataFrame(tables1[8])

now=datetime.now()
PartUsage["Date"]=now
PartUsage.set_index("Date", inplace=True)

from pathlib import Path  
filepath = Path('Path.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
PartUsage.to_csv(filepath)

我添加了时间戳,因为所需的表中没有时间戳。如何链接时间戳以将其用作输入?

这是公司特定的数据,因此我无法提供链接或任何进一步的细节。任何帮助都将不胜感激。谢谢

您可以为此使用Cron应用程序。这是一个应用程序,它按照特定的时间表运行一些脚本。为了方便起见,您还可以将它部署在自动运行的docker容器中。关于cron的更多信息,您可以在那里找到:如何在Python中获得类似cron的调度器?

最新更新