如何遍历目录，仅提取.txt文件，并将每个.txt文件放入单独但可访问的数据帧中?

我有一个PDF文件和大约130个.txt文件。

PDF 文件无用，需要跳过。每个.txt文件都包含名称数据，每个.txt文件表示从 1880 年到 2010 年的年份。

所有.txt文件都具有相同的格式：姓名，性别，在该特定年份具有该名称的人数。下面是其中一个.txt文件的示例：

Mary,M,8754
Susan,M,5478
Brandy,M,5214
etc...

每个.txt文件中可能有数千个名称。我的问题基本上是标题所要求的。我想知道如何有效地获取每个.txt文件并将它们放入独立但可访问的数据帧中。我希望能够快速搜索和提取特定名称的平均值或标准偏差等内容。

我已经研究了具有类似问题/疑虑的多个主题，但没有一个对我有任何实际用处：

将多个 csv 文件导入熊猫并连接到一个数据帧将多个 *.txt 文件读入 Pandas 数据帧，文件名作为列标题

从多个文件创建熊猫数据框

任何和所有的建议都值得赞赏。

import pandas as pd
from glob import glob
path = 'your_path' # use your path
files = glob(path + '/*.txt')
get_df = lambda f: pd.read_csv(f, header=None, names=['Name', 'Sex', 'Count'])
dodf = {f: get_df(f) for f in files}

相关内容

最新更新

热门标签：