我对 nympy 很陌生,我正在尝试使用以下代码将 tab(\t( 分隔的文本文件读取到 numpy 数组矩阵中:
train_data = np.genfromtxt('training.txt', dtype=None, delimiter='t')
文件内容:
38 Private 215646 HS-grad 9 Divorced Handlers-cleaners Not-in-family White Male 0 0 40 United-States <=50K
53 Private 234721 11th 7 Married-civ-spouse Handlers-cleaners Husband Black Male 0 0 40 United-States <=50K
30 State-gov 141297 Bachelors 13 Married-civ-spouse Prof-specialty Husband Asian-Pac-Islander Male 0 0 40 India >50K
我期望的是形状(3,15(的2-D数组矩阵
但是使用我上面的代码,我只得到一个形状的单行数组 (3,(
我不确定为什么每行的这十五个字段没有为每个字段分配一列。
我也尝试使用 numpy 的 loadtxt((,但它无法处理我的数据上的类型转换,即即使我给了 dtype=None 它也会尝试将字符串转换为默认的浮点类型并失败。
尝试的代码:
train_data = np.loadtxt('try.txt', dtype=None, delimiter='t')
Error:
ValueError: could not convert string to float: State-gov
有什么指示吗?
谢谢
实际上这里的问题是,如果 dtype 是结构化的(即具有多种类型(,np.genfromtxt
和 np.loadtxt
都返回结构化数组。 您的数组报告具有 (3,)
的形状,因为从技术上讲,它是一个"记录"的一维数组。 这些"记录"保存您的所有列,但您可以像 2D 一样访问所有数据。
您正在正确加载它:
In [82]: d = np.genfromtxt('tmp',dtype=None)
正如您所报告的那样,它具有 1D 形状:
In [83]: d.shape
Out[83]: (3,)
但是您的所有数据都在那里:
In [84]: d
Out[84]:
array([ (38, 'Private', 215646, 'HS-grad', 9, 'Divorced', 'Handlers-cleaners', 'Not-in-family', 'White', 'Male', 0, 0, 40, 'United-States', '<=50K'),
(53, 'Private', 234721, '11th', 7, 'Married-civ-spouse', 'Handlers-cleaners', 'Husband', 'Black', 'Male', 0, 0, 40, 'United-States', '<=50K'),
(30, 'State-gov', 141297, 'Bachelors', 13, 'Married-civ-spouse', 'Prof-specialty', 'Husband', 'Asian-Pac-Islander', 'Male', 0, 0, 40, 'India', '>50K')],
dtype=[('f0', '<i8'), ('f1', 'S9'), ('f2', '<i8'), ('f3', 'S9'), ('f4', '<i8'), ('f5', 'S18'), ('f6', 'S17'), ('f7', 'S13'), ('f8', 'S18'), ('f9', 'S4'), ('f10', '<i8'), ('f11', '<i8'), ('f12', '<i8'), ('f13', 'S13'), ('f14', 'S5')])
数组的dtype
结构如下:
In [85]: d.dtype
Out[85]: dtype([('f0', '<i8'), ('f1', 'S9'), ('f2', '<i8'), ('f3', 'S9'), ('f4', '<i8'), ('f5', 'S18'), ('f6', 'S17'), ('f7', 'S13'), ('f8', 'S18'), ('f9', 'S4'), ('f10', '<i8'), ('f11', '<i8'), ('f12', '<i8'), ('f13', 'S13'), ('f14', 'S5')])
您仍然可以使用 dtype 中给出的名称访问"列"(称为字段(:
In [86]: d['f0']
Out[86]: array([38, 53, 30])
In [87]: d['f1']
Out[87]:
array(['Private', 'Private', 'State-gov'],
dtype='|S9')
为字段指定专有名称更方便:
In [104]: names = "age,military,id,edu,a,marital,job,fam,ethnicity,gender,b,c,d,country,income"
In [105]: d = np.genfromtxt('tmp',dtype=None, names=names)
因此,您现在可以访问'age'
字段等:
In [106]: d['age']
Out[106]: array([38, 53, 30])
In [107]: d['income']
Out[107]:
array(['<=50K', '<=50K', '>50K'],
dtype='|S5')
或35岁以下人群的收入
In [108]: d[d['age'] < 35]['income']
Out[108]:
array(['>50K'],
dtype='|S5')
和超过 35
In [109]: d[d['age'] > 35]['income']
Out[109]:
array(['<=50K', '<=50K'],
dtype='|S5')
更新了答案
对不起,我误读了你原来的问题:
我期望的是形状(3,15(的2-D数组矩阵
但是使用我上面的代码,我只得到一个形状的单行数组 (3,(
我想你误解了np.genfromtxt()
会回来什么。在这种情况下,它将尝试推断文本文件中每个"列"的类型,并返回一个结构化/"记录"数组。每行将包含多个字段(f0...f14
(,每个字段都可以包含对应于文本文件中"列"的不同类型的值。您可以按名称为特定字段编制索引,例如 data['f0']
.
您根本无法拥有异构类型的(3,15)
numpy 数组。您可以有一个(3,15)
同类字符串数组,例如:
>>> string_data = np.genfromtext('test', dtype=str, delimiter='t')
>>> print string_data.shape
(3, 15)
然后,当然,您可以手动将列转换为所需的任何类型,如@DrRobotNinja的答案所示。但是,您也可以让 numpy 为您创建一个结构化数组,然后按字段对其进行索引并将列分配给新数组。
我不相信 Numpy 数组在单个数组中处理不同的数据类型。可以做的是将整个数组加载为字符串,然后根据需要将必要的列转换为数字
# Load data as strings
train_data = np.loadtxt('try.txt', dtype=np.str, delimiter='t')
# Convert numeric strings into integers
first_col = train_data[:,0].astype(np.int)
third_col = train_data[:,2].astype(np.int)