优化CSV处理脚本- Python, Perl和Java



我正在尝试制作一个简单的脚本,快速处理嘈杂的CSV文件。我只是想从一个大型CSV文件(gzip)中抓取几列,并使用修剪后的数据编写一个新的CSV文件。还添加了一个简单的过滤方法,检查列的长度[0]== 15。

我比较了perl, java和python脚本,发现java比其他语言快得多。我想知道是否有任何其他方法可以优化这种简单的过程为每种语言?

每种语言的基准测试时间为(对于800MByte的gzip文件)1. Java: 74秒2. Python: 197秒3.Perl: 7分钟

Python:

import gzip
import csv
import time
def getArray(row): 
    columns = [0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91]
    row_filt = []
    for i in columns:
        row_filt.append(row[i])
    return row_filt
filename = 'Very_large_csv.gz' 
outfile = filename + '.csv'
csv.register_dialect('wifi', delimiter='|', quoting=csv.QUOTE_NONE, quotechar = '')
start_time = time.time()
try:
    f = gzip.open(filename, 'rb')
    f2 = open(outfile, 'wb')
    reader = csv.reader(f, dialect = 'wifi')
    writer = csv.writer(f2, dialect = 'wifi')
    header = reader.next()
    writer.writerow(getArray(header))
    for row in reader:
        if (len(row[0]) != 15):
            continue
        writer.writerow(getArray(row))
    print(time.time() - start_time)
finally:
    f.close()
Perl:

use strict;
use warnings;
use Cwd;
use IO::Uncompress::Gunzip qw($GunzipError);
use Text::CSV_XS;
use Time::Piece;
use Time::Seconds;
my @COLUMNS = (0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91);
my $csv = Text::CSV_XS->new ({  binary => 1,
                                sep_char => '|',
                                escape_char => undef,
                                eol => "n",
                                quote_char => undef
                                });
my $infile='Very_large_csv.gz';
my $fh = IO::Uncompress::Gunzip->new($infile) or die "IO::Uncompress::Gunzip failed: $GunzipErrorn";
my $outfile = $infile . ".csv";
open my $out, ">", $outfile or die "$outfile: $!n";
my @header_row = split(/|/,<$fh>);
my @header = ();
foreach my $column (@COLUMNS)
{
    push @header, $header_row[$column];
}
my $header_filter = @header;   
$csv->print ($out, $header_filter);
print "Start.n";
while (my $row = $csv->getline($fh))
{
    length($row->[0]) == 15 or next;
    my @data = ();
    foreach my $column (@COLUMNS)
    {
        push @data, $row->[$column];
    }
    my $row_filter = @data;
    $csv->print($out, $row_filter); 
}
$csv->eof or $csv->error_diag ();
close $fh;
close $out or die "$outfile: $!";
Java:

public class NoiseFilter {
    static final int[] columns = {0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91};
    public static void main(String[] args) throws IOException {
        fname='Very_large_csv.gz';
        GZIPInputStream gzip = new GZIPInputStream(new FileInputStream(fname));
        BufferedReader reader = new BufferedReader(new InputStreamReader(gzip));
        String line = reader.readLine(); // Header
        String[] header = line.split("\|");
        PrintWriter ww = new PrintWriter(fname + ".csv");
        printRow(header, ww);
        while ((line = reader.readLine()) != null) {
            String[] data = line.split("\|",-1);
            if (data[0].length() != 15 ) { continue; }
            printRow(data, ww);
        }
        ww.close();
        reader.close();
    }
    private static void printRow(String[] row, PrintWriter writer) {
        for (int i = 0; i < columns.length; i++) {
            if (i == 0) {
                writer.print(row[columns[i]]);
            } else {
                writer.print("|" + row[columns[i]]);
            }
        }
        writer.print("n");
    }
}

我对python代码进行了如下修改,得到了95秒的运行时间,可以与Java兼容。

def getArray(line): 
    string=''
    row=line.split(',')
    for i in columns:   
        string+=(row[i]+',')
    return string+'n'
try:
    f = gzip.open(filename, 'rb')
    f2 = open(outfile, 'wb')
    header = f.readline() 
    f2.write(getArray(header))
    for line in f:
        f2.write(getArray(line))
finally:
    f.close()

可以在Perl脚本中优化某些内容。例如:

while (my $row = $csv->getline($fh))
{
    length($row->[0]) == 15 or next;
    my @data = ();
    foreach my $column (@COLUMNS)
    {
        push @data, $row->[$column];
    }
    my $row_filter = @data;
    $csv->print($out, $row_filter); 
}

可以替换为:

my $row;
length($row->[0])==15 and $csv->print($out, [ @{$row}[@COLUMNS] ])
    while $row = $csv->getline($fh);

…应该会表现得更好。我没有对它进行基准测试,但它不太可能产生巨大的差异。

更重要的是,Java代码更快的原因是做的少得多。Text::CSV_XS(我猜你也使用Python模块)是一个完整的解析器-它处理引号字段,转义字符等。考虑以下以管道分隔的文件,该文件旨在包含两行和两列:

1|"Foo+Bar"
2|"Foo|Bar"

您的Java代码天真地在管道上分割行,这意味着"Foo|Bar"应该是单个原子字符串值,而不是被分割成两个字段。如果Java代码做了与Perl和Python版本相同的检查,它就会变慢。

相反,您可以通过放弃适当的csv样式解析而只使用split来加快Perl或Python版本。例如在Perl中:

while (<$fh>) {
    chomp;
    my @F = split /|/;
    length $F[0] == 15 or next;
    print {$out} join("|", @F[@COLUMNS]), "n";
}

您的整个脚本甚至可以使用以下一行代码完成:

gzip -d -c Very_large_csv.gz | perl -F'|' -lane 'print join("|", @F[0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91]) if $. == 1 || length($F[0]) == 15' > output.csv

解释:

交换机:

  • -F: split()模式-a开关(//s可选)
  • -l:启用行结束处理
  • -a:在空格上分割行并将它们加载到数组中@F
  • -n:为每一行创建一个while(<>){...}循环;在输入文件中。
  • -e:告诉perl在命令行上执行代码。

:

  • gzip -d -c Very_large_csv.gz:解压文件,管道到STDOUT
  • print join("|", @F[0,4,5,26,33,34,35,36,39,41,42,47,54,65,66,72,73,91]):只保留CSV文件的部分索引
  • if $. == 1 || length($F[0]) == 15:基于标题或第一列的过滤器

你的内循环中没有很多脂肪。在python版本中,每次调用getarray()时都要构造一个新的columns对象。由于getarray()函数本身非常简单,因此可以将整个函数内联。

不太可能有显著的加速。

您也可以尝试PyPy,它可能会产生相对较大的差异—尽管可能仍然不如Java版本快。

最新更新