如何对 pandas 数据帧子集中的列求和

我对Python及其在GIS中的应用非常陌生。

使用Jupyter笔记本，我正在处理一个太大而无法使用excel打开的数据集。它有近 800000 行和 61 列。

现在，我需要查询数据帧以创建感兴趣的子集，在本例中为 2 列：OBJECTID 和 Landuse，每个列都达到特定范围：

import pandas
df = pd.read_csv('.big file.csv')
grass_ID4440 = df[(df.OBJECTID == 4440) & (df.Landuse == 'Grass - Urban')]

此子集吐出 38 行。现在，如果我想对这 38 行的面积求和，我应该采用哪种逻辑/方法？

这是我的想法：

area_ID4440 = grass_ID4440['Area'].sum()

这在逻辑方面显然是错误的，因为它吐出了整个数据集的总面积之和。

提前谢谢你！

你的逻辑应该可以正常工作。但值得指出的是，您应该尽可能避免链式索引，在文档中明确不鼓励这样做。这消除了使用副本与视图的歧义，但也使您的逻辑更加清晰。

有几种选择：-

重用布尔索引

一种常见的方法是计算布尔掩码(昂贵的部分(并在后续计算中重用它：

mask = (df['OBJECTID'] == 4440) & (df['Landuse'] == 'Grass - Urban')
grass_ID4440 = df[mask]  # this is a view based on df
area_ID4440 = df.loc[mask, 'Area'].sum()  # scalar output

制作显式副本

这样，对数据帧切片的任何更改都不会影响原始数据帧：

mask = (df['OBJECTID'] == 4440) & (df['Landuse'] == 'Grass - Urban')
grass_ID4440 = df[mask].copy()  # this is a copy, changes will not be reflected in df
area_ID4440 = df.loc[mask, 'Area'].sum()  # scalar output

重用布尔索引

制作显式副本

相关内容

最新更新

热门标签：