Pandas DataFrame:无法将字符串转换为浮点值



我在熊猫数据帧中有一列Column1,其类型为str,值的形式如下:

import pandas as pd
df = pd.read_table("filename.dat")
type(df["Column1"].ix[0])   #outputs 'str'
print(df["Column1"].ix[0])

其输出CCD_ 3。所以,这是一个字符串。我想把它转换成一个浮子。

我试过这个:

df["Column1"] = df["Column1"].astype('float64', raise_on_error = False)

但这并没有将值更改为浮点值。

这也失败了:

df["Column1"] = df["Column1"].convert_objects(convert_numeric=True)

这次失败了:

df["Column1"] = df["Column1"].apply(pd.to_numeric, args=('coerce',))

如何将"第1列"的所有值转换为浮点值?我可以用正则表达式去掉括号吗?

编辑:

线路

df["Meth"] = df["Meth"].apply(eval)

有效,但前提是我使用两次,即

df["Meth"] = df["Meth"].apply(eval)
df["Meth"] = df["Meth"].apply(eval)

为什么会这样?

您需要计算表达式(例如"1/350'")才能得到结果,为此可以使用Python的eval()函数。

通过将Panda的apply()函数封装在它周围,您就可以对列中的每个值执行eval()函数。示例:

df["Column1"].apply(eval)

在解释文字时,还可以使用文档中提到的ast.literal_eval函数更新:这不会起作用,因为literal_eval()的使用仍然局限于加法和减法(来源)。

备注:正如这个问题的其他答案和评论中所提到的,eval()的使用并非没有风险,因为你基本上是在执行传入的任何输入。换句话说,如果你的输入包含恶意代码,你就是在免费通过。

替代选项:

# Define a custom div function
def div(a,b):
    return int(a)/int(b)
# Split each string and pass the values to div
df_floats = df['col1'].apply(lambda x: div(*x.split('/')))

不干净数据的情况下的第二种选择

通过使用正则表达式,我们可以删除分别出现的任何非数字。在分子之前和分母之后。

# Define a custom div function (unchanged)
def div(a,b):
    return int(a)/int(b)
# We'll import the re module and define a precompiled pattern
import re
regex = re.compile('D*(d+)/(d+)D*')
df_floats = df['col1'].apply(lambda x: div(*regex.findall(x)[0]))

我们会损失一些性能,但好处是,即使有'!erefdfs?^dfsdf1/350dqsd qsd qs d'这样的输入,我们最终仍然会得到1/350的值。

性能:

当对具有100.000行的数据帧上的两个选项进行计时时,第二个选项(使用用户定义的div函数)显然获胜:

  • 使用eval:1循环,3的最佳值:每个循环1.41 s
  • 使用div:10个循环,每个循环的最佳时间为3:159ms
  • 使用re:1循环,每个循环的最佳时间为3:275 ms

我讨厌提倡使用eval。我不想花时间在这个答案上,但我是被迫的,因为我不想让你使用eval

所以我写了这个函数,它适用于pd.Series

def do_math_in_string(s):
    op_map = {'/': '__div__', '*': '__mul__', '+': '__add__', '-': '__sub__'}
    df = s.str.extract(r'(d+)(D+)(d+)', expand=True)
    df = df.stack().str.strip().unstack()
    df.iloc[:, 0] = pd.to_numeric(df.iloc[:, 0]).astype(float)
    df.iloc[:, 2] = pd.to_numeric(df.iloc[:, 2]).astype(float)
    def do_op(x):
        return getattr(x[0], op_map[x[1]])(x[2])
    return df.T.apply(do_op)

演示

s = pd.Series(['1/2', '3/4', '4/5'])
do_math_in_string(s)
0    0.50
1    0.75
2    0.80
dtype: float64

do_math_in_string(pd.Series(['1/2', '3/4', '4/5', '6+5', '11-7', '9*10']))
0     0.50
1     0.75
2     0.80
3    11.00
4     4.00
5    90.00
dtype: float64

请不要使用eval

您可以将eval应用于列:

data = {'one':['1/20', '2/30']}
df = pd.DataFrame(data)
In [8]: df['one'].apply(eval)
Out[8]:
0    0.050000
1    0.066667
Name: one, dtype: float64

相关内容

  • 没有找到相关文章

最新更新