我有一个文本文件,看起来像这样:
Version:23
Developer: Ali
NAME AGE IN
- Carol 22 no
- Kyle 31 yes
...
我正在使用Dask数据框架(应该类似于Pandas)读取它。结果表应该是这样的数据框:
NAME AGE IN
Carol 22 no
Kyle 31 yes
我有麻烦摆脱在每一行的破折号('-')在列名'-'下面。我试着
dd.read_csv(filepath, header = 3, sep="s+")
导致数据帧具有不同的行大小并带来更多问题,我也尝试使用多个分隔符,但仍然给出错误。
dd.read_csv(filepath, header = 3, sep="s-s+")
dask.dataframe
假设您的数据已经是表格格式。如果您坚持使用dask,那么您将进一步使用dask.bag
,它将逐行加载文件。然后,您可以过滤掉不以破折号开始的行,并处理那些以破折号开始的行,将它们编码为json对象/字典,稍后使用.to_dataframe()
将其转换为数据帧。