使用
使用
我有导入熊猫的税收数据,我想查看数据的某些部分,以便我可以分析该部分人口。我这样做的方式是制作这样的新数据框
new_df = old_tax_df[(old_tax_df.var_1 == 1) & (old_tax_df.var_2 == 1)]
有没有办法在不制作数据帧的情况下做到这一点,这将使代码更干净?
让我们尝试一下.query
方法,它的可读性更强一些:
new_df = old_tax_df.query('var_1 == 1 and var_2 == 1')
或者正如MaxU在评论中指出的那样。
new_df = old_tax_df.query("var_1 == var_2 == 1")
也会工作。
一种方法 -
old_tax_df[(old_tax_df[['var_1','var_2']]==1).all(1)]
示例运行 -
In [68]: old_tax_df
Out[68]:
var_1 var_2 var_3 var_4
0 0 1 0 1
1 1 1 0 2
2 2 1 1 1
3 1 0 1 2
4 1 2 0 2
5 2 0 1 1
6 2 0 0 2
7 0 2 2 0
8 1 1 0 1
9 2 1 1 1
# Original code
In [69]: old_tax_df[(old_tax_df.var_1 == 1) & (old_tax_df.var_2 == 1)]
Out[69]:
var_1 var_2 var_3 var_4
1 1 1 0 2
8 1 1 0 1
# Proposed code
In [70]: old_tax_df[(old_tax_df[['var_1','var_2']]==1).all(1)]
Out[70]:
var_1 var_2 var_3 var_4
1 1 1 0 2
8 1 1 0 1
# Alternative using `.eq` to replace `==1`
In [76]: old_tax_df[old_tax_df[['var_1','var_2']].eq(1).all(1)]
Out[76]:
var_1 var_2 var_3 var_4
1 1 1 0 2
8 1 1 0 1
使用 .groupby
您可以使用 groupby 方法,然后访问这些组。
groups = df.groupby(['var_1', 'var_2', 'var_3', 'var_4'])
groups.get_group((2, 0, 0, 2))
这是根据数据帧中的值将一个数据帧分段为多个数据帧的一种方法。
使用.loc
df.set_index(['var_1', 'var_2', 'var_3', 'var_4'], inplace=True)
df.loc[2, 0, 0, 2]
将产生相同的结果,只是数据帧现在将在变量字段上编制索引。
有关此主题的更多信息,请参阅 Pandas 的索引和选择数据文档页面。