如何遍历目录,仅提取.txt文件,并将每个.txt文件放入单独但可访问的数据帧中?



我有一个PDF文件和大约130个.txt文件。

PDF 文件无用,需要跳过。每个.txt文件都包含名称数据,每个.txt文件表示从 1880 年到 2010 年的年份。

所有.txt文件都具有相同的格式:姓名,性别,在该特定年份具有该名称的人数。下面是其中一个.txt文件的示例:

Mary,M,8754
Susan,M,5478
Brandy,M,5214
etc...

每个.txt文件中可能有数千个名称。我的问题基本上是标题所要求的。我想知道如何有效地获取每个.txt文件并将它们放入独立但可访问的数据帧中。我希望能够快速搜索和提取特定名称的平均值或标准偏差等内容。

我已经研究了具有类似问题/疑虑的多个主题,但没有一个对我有任何实际用处:

将多个 csv 文件导入熊猫并连接到一个数据帧 将多个 *.txt 文件读入 Pandas 数据帧,文件名作为列标题

从多个文件创建熊猫数据框

任何和所有的建议都值得赞赏。

import pandas as pd
from glob import glob
path = 'your_path' # use your path
files = glob(path + '/*.txt')
get_df = lambda f: pd.read_csv(f, header=None, names=['Name', 'Sex', 'Count'])
dodf = {f: get_df(f) for f in files}

最新更新