我对web抓取和python很陌生。我正在做一个项目,该项目要求我从每10分钟刷新/更新一次数据的网站上抓取数据。我能够抓取当前10分钟的数据,但当数据刷新时,以前的数据不再有效。我需要3件事的帮助-
-
网站顶部有一个输入时间戳。如何更改输入中的时间以仅获取特定时间段的数据?在此处输入图像描述
-
我当前的代码是-
import requests
import pandas as pd
import datetime as dt
from datetime import datetime
URL1 = "URL.com"
tables1= pd.read_html(URL1)
print("There are : ",len(tables1)," tables1")
PartUsage=pd.DataFrame(tables1[8])
now=datetime.now()
PartUsage["Date"]=now
PartUsage.set_index("Date", inplace=True)
from pathlib import Path
filepath = Path('Path.csv')
filepath.parent.mkdir(parents=True, exist_ok=True)
PartUsage.to_csv(filepath)
我添加了时间戳,因为所需的表中没有时间戳。如何链接时间戳以将其用作输入?
这是公司特定的数据,因此我无法提供链接或任何进一步的细节。任何帮助都将不胜感激。谢谢
您可以为此使用Cron应用程序。这是一个应用程序,它按照特定的时间表运行一些脚本。为了方便起见,您还可以将它部署在自动运行的docker容器中。关于cron的更多信息,您可以在那里找到:如何在Python中获得类似cron的调度器?