我希望这是一个合适的问题。如果没有,请告诉我,我会立即删除它。
问题:
我如何使用python来检查(视觉上?)在组合过程中出现的错误的大型数据集?
背景:我正在处理几个大型(但不是,你知道"大")数据集,我将它们组合成一个更大的数据集。这款新产品的尺寸约为2.5G,因此大多数电子表格程序都不适合它,至少我试用过的软件(MS Excel、OpenOffice)不适合它。
创建最终数据集的过程使用模糊匹配(通过fuzzywuzzy
),我想检查匹配的结果,看看是否有任何错误引入。
到目前为止,我已经尝试将整个集合导入pandas
数据帧。这个DF有64列,所以当我简单地做像df.head()
这样的事情时,结果显示的信息显然不显示所有列;因此,我排除了只迭代多个.head()
调用的可能性。
这里有一个关于可视化数据框架的特定方面的类似问题。我想我的问题是不同的,因为我不需要可视化任何关于底层结构或类型的东西。我只是想从视觉上检查我怀疑可能有错误的地方。
如何切片你的10-12行,然后转置,你有一个64行x 12列的数据框架。如果没有太大的索引名,这应该是可读的。
import pandas as pd
import numpy as np
# Set max number of rows, 64 would be enough here but I'm trying to be safe
pd.set_option('display.max_rows', 500)
df = pd.DataFrame(np.random.randn(1000,64))
nstart = 100
# Slice 12 lines starting at nstart, and transpose that...
df.iloc[nstart:(nstart+13)].T
我在这里省去了输出,但是尝试运行上面的代码。