读取和解析TSV文件,然后将其保存为CSV(*高效*)



我的源数据是TSV文件,6列,大于200万行。

这是我想要完成的:

  1. 我需要在此源文件
  2. 中读取3列(3,4,5)中的数据
  3. 第五列为整数。我需要使用这个整数值来复制行条目,使用第三和第四列中的数据(通过整数次数)。
  4. 我想把#2的输出写成CSV格式的输出文件

下面是我想到的。

我的问题是:这是一个有效的方法吗?当尝试在200万行上执行时,看起来可能会很密集。

首先,我创建了一个单独的示例选项卡文件,并将其命名为"sample.txt"。它是基本的,只有四行:

Row1_Column1    Row1-Column2    Row1-Column3    Row1-Column4    2   Row1-Column6
Row2_Column1    Row2-Column2    Row2-Column3    Row2-Column4    3   Row2-Column6
Row3_Column1    Row3-Column2    Row3-Column3    Row3-Column4    1   Row3-Column6
Row4_Column1    Row4-Column2    Row4-Column3    Row4-Column4    2   Row4-Column6

那么我有这个代码:

import csv 
with open('sample.txt','r') as tsv:
    AoA = [line.strip().split('t') for line in tsv]
for a in AoA:
    count = int(a[4])
    while count > 0:
        with open('sample_new.csv', 'a', newline='') as csvfile:
            csvwriter = csv.writer(csvfile, delimiter=',')
            csvwriter.writerow([a[2], a[3]])
        count = count - 1

您应该使用csv模块读取以制表符分隔的值文件。不要而要一次将它读入内存。毕竟,您读取的每一行都包含将行写入输出CSV文件所需的所有信息。

import csv
with open('sample.txt', newline='') as tsvin, open('new.csv', 'w', newline='') as csvout:
    tsvin = csv.reader(tsvin, delimiter='t')
    csvout = csv.writer(csvout)
    for row in tsvin:
        count = int(row[4])
        if count > 0:
            csvout.writerows([row[2:4] for _ in range(count)])

或使用itertools模块对itertools.repeat()进行重复:

from itertools import repeat
import csv
with open('sample.txt', newline='') as tsvin, open('new.csv', 'w', newline='') as csvout:
    tsvin = csv.reader(tsvin, delimiter='t')
    csvout = csv.writer(csvout)
    for row in tsvin:
        count = int(row[4])
        if count > 0:
            csvout.writerows(repeat(row[2:4], count))

相关内容

  • 没有找到相关文章

最新更新