我一直在研究一个包含与产品相关的字母图的数据集。在数据帧中,我们有像 cadbury9gm 或 100gmdoritos 这样的单字母,所以我想删除包含此类名称的整行,即包含数值以使数据帧更干净,以便我可以进一步进行,因为我必须在类别和子类别中对产品进行分类。有没有办法删除包含数字字符的行? 谢谢
这就是我要做的:
import pandas as pd
import numpy as np
bogus_data = {
'Name': ['Acme', 'Foo', 'Bar', 'Loren', 'Ipsum'],
'Label': ['abc', '3ds', 'cba', 'b3ewq', 'asdf'],
'Value': np.random.rand(5)
}
df = pd.DataFrame(bogus_data, columns=['Name', 'Label', 'Value'])
df = df[~df["Label"].str.contains(r'[0-9]')]
print(df)
打印此数据帧的结果是
Name Label Value
0 Acme abc 0.574412
2 Bar cba 0.354460
4 Ipsum asdf 0.047170
试试这个:
testdf
Name Value
0 Name1 4409
1 Name2 SomeVal
2 Name3 26Text73
3 Name4 SomeVal2
4 Name5 2123Text
5 Name6 Text1904
6 Name7 1Text747
7 Name8 145Text7
# Add a column that validates your contains digit condition
testdf['HasDigit'] = testdf['Value'].map(lambda x: True if any(i.isdigit() for i in str(x)) else False)
testdf
Name Value HasDigit
0 Name1 4409 True
1 Name2 SomeVal False
2 Name3 26Text73 True
3 Name4 SomeVal2 True
4 Name5 2123Text True
5 Name6 Text1904 True
6 Name7 1Text747 True
7 Name8 145Text7 True
# Finally retain the ones with value False in 'HasDigit' columns
testdf = testdf[testdf['HasDigit'] == False]
testdf
Name Value HasDigit
1 Name2 SomeVal False
您可以稍后删除"HasDigit"列。
如果您希望根据单列中的值进行过滤,这将完美运行。但是,如果涉及多个列,则可以创建一个新列,该列连接所考虑的所有列的字符串值。下面是一个示例:
testdf['NewCol'] = testdf['Col1'].astype(str) + testdf['Col2'].astype(str) + ... + testdf['Coln'].astype(str)
有了这个新列后,您就可以在其上运行相同的 lambda 函数。
希望这有帮助