为熊猫系列添加自定义属性



我试图为每个pd添加单个自定义属性。在pd.DataFrame内的系列。具体来说,我得到了一个CSV,其中间歇性地,颜色代码嵌入在列标题中。我想在绘制图形之前将它们预处理成一个属性-并为其他非指定列分配默认颜色。

但是在其核心,我只需要一个自定义属性嵌入到Series的某个地方,就像您在任何其他Python对象上所做的那样。简化的例子:

>>> import pandas as pd
>>> df = pd.DataFrame({"Low":[1,2,3], "Medium":[4,5,6], "High":[7,8,9]})
>>> s1 = df.iloc[:,1]
>>> 
>>> s1.color = 'yellow'
>>> print(s1.color)
yellow
>>>
>>> type(s1)
<class 'pandas.core.series.Series'>
>>>
>>> ### assign back to the DataFrame...
>>> df.iloc[:,1] = s1
>>>
>>> print(df.iloc[:,1].color)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pandas/core/generic.py", line 5487, in __getattr__
return object.__getattribute__(self, name)
AttributeError: 'Series' object has no attribute 'color' 
>>>
>>>
>>> ### Drat... maybe assigning directly to the Series object:
>>> setattr(df.iloc[:,1], 'color', 'yellow')
>>> 
>>> ### goes in ok, but...
>>> df.iloc[:,1].color
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pandas/core/generic.py", line 5487, in __getattr__
return object.__getattribute__(self, name)
AttributeError: 'Series' object has no attribute 'color'
>>> 

显然熊猫不只是传递指针。我不需要序列化,但我确实需要属性在运行时函数之间传递。

我宁愿不为一个属性子类化整个数据框架/系列模型。厌倦了这一点,我的目标是为存储颜色和系列索引之间的属性映射的数据框架提供一个包装类,但是……同样,对于python对象的+1属性来说,这似乎很混乱。

有什么最简单/最干净的解决方案吗?

我想我对类似问题的回答可以帮助你。我认为您需要的是一个自定义属性访问器来扩展Pandas Series

最新更新