花旗自行车数据下降



gurus

我尝试在citibike数据页面上提取网址并下载这些zip文件。但是,以下代码返回 null。有人可以给出一些提示吗?感谢您的帮助!

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re
req = Request("https://s3.amazonaws.com/tripdata/index.html")
html_page = urlopen(req)
soup = BeautifulSoup(html_page, "lxml")
links = []
for link in soup.findAll('a'):
links.append(link.get('href'))
print(links)

请求的页面实际上是"空的"(不包含链接(。必需的链接来自另一个 XML 格式的 URL。

您可以尝试以下操作以获取所需的输出:

import requests
from lxml import etree
r = requests.get('https://s3.amazonaws.com/tripdata')
source = etree.fromstring(r.content)
for item in source.xpath('//*'):
if item.text and item.text.endswith('zip'):
print('https://s3.amazonaws.com/tripdata/' + item.text)

最新更新