如何将异构数据(np.genfromttxt)加载为2D数组



我从numpy.genfromttxt中了解到,它生成的数组看起来像元组,而不是2D数组——为什么?如果数据不是齐次的,则CCD_ 1返回结构化的ndarray如何将异构数据加载为2D阵列

例如,一个文本文件,其内容为:(除标题外的所有项目都是int

# c1    c2  c3  c4  c5
3   4   8   6   8
10  7   6   7   10
5   10  2   1   3
7   6   5   3   6
5   8   5   2   7
1   2   2   10  8
10  5   9   3   8
5   2   4   4   2

使用np.genfromtxt、加载数据

# load data from a text file
table = np.genfromtxt('table.dat', dtype=int, delimiter='t', names=True, filling_values=0)
print(table.shape)
print(table)
# output
(8,)
[(3, 4, 8, 6, 8) (10, 7, 6, 7, 10) (5, 10, 2, 1, 3) (7, 6, 5, 3, 6)
 (5, 8, 5, 2, 7) (1, 2, 2, 10, 8) (10, 5, 9, 3, 8) (5, 2, 4, 4, 2)]
# expecting result
(8, 5)
[[ 7  2  4  9  2]
 [ 5  8  1  6  4]
 [ 6  3  1  4 10]
 [10 10  6  5  5]
 [10  4  7  7  1]
 [ 1  9  8  6  2]
 [ 3  2  3  4  4]
 [ 7  5  9 10  6]]

附言:我想把header = table.dtype.names留作他用。

在这种情况下,使用panda,然后将panda数据帧转换为numpy矩阵会更容易。

import pandas as pd
foo = pd.read_csv('table.dat', sep='t')
type(foo)
<class 'pandas.core.frame.DataFrame'>
bar = foo.as_matrix()
array([[10,  7,  6,  7, 10],
       [ 5, 10,  2,  1,  3],
       [ 7,  6,  5,  3,  6],
       [ 5,  8,  5,  2,  7],
       [ 1,  2,  2, 10,  8],
       [10,  5,  9,  3,  8],
       [ 5,  2,  4,  4,  2]])
bar.shape
(7,5)

我使用了这个:

import numpy as np
table = np.genfromtxt('table.dat',
                      dtype=None,
                      skip_header=1)

以下是它工作的原因:

  • 您应该使用连续的空白作为分隔符(默认值),而不是制表符(除非您发布的代码段丢失了格式)
  • 您应该让NumPy推断dtype,而不是使用默认的float
  • 为了在问题中获得所需的输出,您只需跳过标题列,而不是获得创建结构化dtype的函数

查看文档:http://docs.scipy.org/doc/numpy-1.10.0/reference/generated/numpy.genfromtxt.html了解更多详细信息。

我同意,如果你本质上是在读csv文件,Pandas DataFrame可能更合适。

您的数据看起来是同质的-除了标头之外,其他都是int。但是,通过说header=True,可以强制它将其加载为结构化数组。看看dtype

尝试numpy.genfromtxt0(检查语法)。省略names(或将其设为false)。

换句话说,您希望加载整数,忽略标题行。

选项卡分隔符似乎工作正常。

我从一条评论中看到,您已经发现了转换结构化数组的view方法。这将为您提供标题名称和二维视图。

相关内容

  • 没有找到相关文章

最新更新