我有一个只有一列的csv文件。我想提取行数。当我运行下面的代码:
import pandas as pd
df = pd.read_csv('data.csv')
print(df)
得到以下输出:
[65422771 rows x 1 columns]
但是当我运行下面的代码时:
file = open("data.csv")
numline = len(file.readlines())
print (numline)
得到以下输出:
130845543
我的csv文件中正确的行数是多少?这两个输出有什么不同?
是否可能在每个条目之后都有一个空行?因为readlines
计数恰好是两倍的。所以当readlines
计数时,pandas会跳过空行
检查空行数:
import sys
import csv
csv.field_size_limit(sys.maxsize)
data= open ('data.csv')
for line in csv.reader(data):
if not line:
empty_lines += 1
continue
print line