Pandas / Dask读取半表格文本



我有一个文本文件,看起来像这样:

Version:23
Developer: Ali
NAME AGE IN
- Carol 22 no
- Kyle 31 yes
...

我正在使用Dask数据框架(应该类似于Pandas)读取它。结果表应该是这样的数据框:

NAME AGE IN
Carol 22 no
Kyle 31 yes

我有麻烦摆脱在每一行的破折号('-')在列名'-'下面。我试着

dd.read_csv(filepath, header = 3, sep="s+")

导致数据帧具有不同的行大小并带来更多问题,我也尝试使用多个分隔符,但仍然给出错误。

dd.read_csv(filepath, header = 3, sep="s-s+")

dask.dataframe假设您的数据已经是表格格式。如果您坚持使用dask,那么您将进一步使用dask.bag,它将逐行加载文件。然后,您可以过滤掉不以破折号开始的行,并处理那些以破折号开始的行,将它们编码为json对象/字典,稍后使用.to_dataframe()将其转换为数据帧。

最新更新