如何将pandas DataFrame中的列从str(科学记数法)转换为numpy.float64

我正试图将这个制表符分隔的文件读取到panda中，但有一点需要注意：最后一列（平均值）必须从表示科学表示法中值的字符串转换为numpy.float64。

到目前为止，我已经尝试过

df = pd.DataFrame(pd.io.parsers.read_table(fle, converters={'mean': lambda x: np.float64(x)}))

但我在df[‘mean’]中得到的只是CCD_ 1和CCD_。

我还尝试过在不使用converters kwarg的情况下导入，然后通过执行df['mean'].astype(np.float64)来强制转换列，得到了类似的结果。

什么东西？

它们不是零。pandas可能在打印DataFrame/Series时进行了一些格式化，因此它们看起来像零。

顺便说一下，您不需要转换器。read_table正确地将它们识别为float64:

In [117]: df = pandas.read_table('gradStat_mmn.tdf')
In [118]: df.ix[0:10]
Out[118]:
    Subject Group Local Global  Attn  mean
0         1  DSub     S      S  Attn     0
1         1  DSub     S      S  Dist     0
2         1  DSub     D      S  Attn     0
3         1  DSub     D      S  Dist     0
4         1  DSub     S      D  Attn     0
5         1  DSub     S      D  Dist     0
6         1  DSub     D      D  Attn     0
7         1  DSub     D      D  Dist     0
8         2  ASub     S      S  Attn     0
9         2  ASub     S      S  Dist     0
10        2  ASub     D      S  Attn     0
In [119]: df['mean'].dtype
Out[119]: dtype('float64')
In [120]: df['mean'][0]
Out[120]: 3.2529000000000002e-22

pandas的0.9版本已经修复了这一问题：

In [4]: df = pandas.read_table('http://dl.dropbox.com/u/6160029/gradStat_mmn.tdf')
In [5]: df.head()
Out[5]: 
   Subject Group Local Global  Attn          mean
0        1  DSub     S      S  Attn  3.252900e-22
1        1  DSub     S      S  Dist  6.010100e-22
2        1  DSub     D      S  Attn  4.215700e-22
3        1  DSub     D      S  Dist  8.308100e-22
4        1  DSub     S      D  Attn  2.983500e-22

相关内容

最新更新

热门标签：