Pandas:导入带有用户更正错误值的csv

我尝试导入csv并处理错误的值，例如错误的十进制分隔符或int/双列中的字符串。我使用转换器来修复错误。对于数字列中的字符串，用户看到一个输入框，他必须在其中固定值。是否有可能获得列名和/或实际"导入"的行?如果没有，有没有更好的方法来做同样的事情?

example csv:
------------
description;elevation
point a;-10
point b;10,0
point c;35.5
point d;30x

from PyQt4 import QtGui
import numpy
from pandas import read_csv
def fixFloat(x):
    # return x as float if possible
    try:
        return float(x)
    except:
        # if not, test if there is a , inside, replace it with a . and return it as float
        try:
            return float(x.replace(",", "."))
        except:
            changedValue, ok = QtGui.QInputDialog.getText(None, 'Fehlerhafter Wert', 'Bitte korrigieren sie den fehlerhaften Wert:', text=x)
            if ok:
                return self.fixFloat(changedValue)
            else:
                return -9999999999
def fixEmptyStrings(s):
    if s == '':
        return None
    else:
        return s
converters = {
    'description': fixEmptyStrings,
    'elevation': fixFloat
}
dtypes = {
    'description': object,
    'elevation': numpy.float64
}
csvData = read_csv('/tmp/csv.txt',
    error_bad_lines=True,
    dtype=dtypes,
    converters=converters
)

如果您想遍历它们，内置的csv.DictReader非常方便。我写了这个函数:

import csv
def read_points(csv_file):
    point_names, elevations = [], []
    message = (
        "Found bad data for {0}'s row: {1}. Type new data to use "
        "for this value: "
    )
    with open(csv_file, 'r') as open_csv:
         r = csv.DictReader(open_csv, delimiter=";")
         for row in r:
             tmp_point = row.get("description", "some_default_name")
             tmp_elevation = row.get("elevation", "some_default_elevation")
             point_names.append(tmp_point)            
             try:
                 tmp_elevation = float(tmp_elevation.replace(',', '.'))
             except:
                 while True:
                     user_val = raw_input(message.format(tmp_point, 
                                                         tmp_elevation))
                     try:
                         tmp_elevation = float(user_val)
                         break
                     except:
                         tmp_elevation = user_val
             elevations.append(tmp_elevation)                
    return pandas.DataFrame({"Point":point_names, "Elevation":elevations})

对于四行测试文件，它给出了以下内容:

In [41]: read_points("/home/ely/tmp.txt")
Found bad data for point d's row: 30x. Type new data to use for this value: 30
Out[41]: 
   Elevation    Point
0      -10.0  point a
1       10.0  point b
2       35.5  point c
3       30.0  point d
[4 rows x 2 columns]

显示整个QT对话框对于这个任务来说似乎有点过分了。为什么不直接使用命令提示符呢?您还可以添加更多的转换函数，并更改一些东西，如分隔符为关键字参数，如果您希望它更可定制。

一个问题是有多少数据需要迭代。如果是大量数据，这将是耗时且乏味的。在这种情况下，你可能只想放弃像'30x'这样的观察值，或者把它们的点ID名称写到其他文件中，这样你就可以在Emacs或VIM之类的东西中一次处理它们，在那里一次操作一大块文本会更容易。

在这里我会采取不同的方法。
而不是在read_csv时间，我会天真地读取csv和，然后修复/转换为float:

In [11]: df = pd.read_csv(csv_file, sep=';')
In [12]: df['elevation']
Out[12]:
0     -10
1    10,0
2    35.5
3     30x
Name: elevation, dtype: object

现在只遍历这一列:

In [13]: df['elevation'] = df['elevation'].apply(fixFloat)

这将使它更容易推理代码(你应用函数到哪些列，如何访问其他列等)

相关内容

最新更新

热门标签：