小贝子编程

从网站的多个页面中提取表格

本文关键字：提取表格网站 web-scraping screen-scraping
更新时间 : 2023-09-18
英文 : extract table from multiple pages in a website

我想从以下链接中提取表https://www.imei.info/carriers/并将其保存到csv以下是我的代码：

for i in range(1,44):
url = 'https://www.imei.info/carriers/?page='+str(i)
html = requests.get(url).content
df_list = pd.read_html(html)
df = df_list[-1]
df.to_csv('imei.csv')

在csv中读取时，它只显示最后一页的数据

这是因为每次写入to_csv时都会擦除上一页。您可以做的是检索所有DataFrames，concatDataFrames列表，然后将输出写入csv:

dfs = []
for i in range(1,44):
url = 'https://www.imei.info/carriers/?page='+str(i)
html = requests.get(url).content
df_list = pd.read_html(html)
dfs.append(df_list[-1])
output = pd.concat(dfs)
output.to_csv("imei.csv")

最新更新

我怎么能强制一个偶数PDF页数与飞碟?
我知道它不是空的，但达特不知道。我该怎么说？
根据时间戳选择最近的不同的对
位置参数太多:允许0，但找到1.尝试删除额外的位置参数
ESLint按包名排序导入
自编辑脚本
使用 Lodash 通过 It's key 获取值，而某些键不存在
延迟函数的执行顺序
c -如何在无限循环中获取用户输入
如何按时间顺序从文件夹中提取jpg EXIF元数据
如何在R中的每一行应用if语句?
如何使用python DRF创建以下JSON响应
使用ConcurrentLinkedQueue会导致内存泄漏吗?
DiscordAPIError:不能发送带有和嵌入的空消息
Firebase安全规则警告消息
为什么当我尝试在 TypeScript 中导入/实现接口时遇到"Cannot find name '...'.ts(2304)"？
Python 导入未安装/找不到
在fortran中是否有任何方法可以从外部定义实4或实8 ?
在SwiftUI, iOS15，二级导航链接，isActive不工作
如何添加自定义字体到现有的PDF文件?
按步进循环中的切片列表
用外部程序处理REST请求的最佳方式
如何继承查看属于GCP组织的所有项目的访问权限?
如何在任何Jetpack撰写视图上禁用涟漪效应?
如何比较数额与PHP库砖/钱
c -从主线程触发一个线程中的动作的防弹方式?
"AttributeError： 'VendorAlias' 对象没有属性 'find_spec'"从何而来？
为什么字符串上的 .include 检测不到小写字母？
MongoDB聚合管道帮助(转换MySQL到MongoDB)
c -结束mac上的终端应用程序+清理过程

从网站的多个页面中提取表格

相关内容

最新更新

热门标签：