AWS glue:当CSV包含字符串和时间戳/日期值时,爬虫不识别元数据



当我们将CSV作为爬虫的输入时,我遇到了一件事

  1. 爬虫不识别列标题时,所有的数据在CSV的字符串格式。

#P1标头显示为col0,col1…#P2和实际的列名被视为数据。#P3元数据(即即使CSV数据集包含日期/时间戳值,列数据类型也显示为字符串)

  1. 如果我们要考虑自定义(CSV)分类器,那么我们手动提到列标题。

#P2将被覆盖,即列名将被删除#P1仍然保持不变。列头将显示为col0,col1…colN。

我想避免三件事,达到预期的效果。

  1. 只有字符串的CSV应该显示实际的列名,而不是col0,col1…
  2. 生成表的元数据应该正确显示(即日期/时间戳,字符串),一旦它被爬虫抓取。
  3. 如果使用自定义分类器,我们需要在分类器中手动提及列头名称,但结果并不令人满意。需要通用的解决方案,而不是人工干预。

看完这个文档:这里如果有人已经实现了解决方案,请帮助。

我找到了解决上述问题之一的方法。头文件,即CSV的第一行显示使用'Has heading'

然而,接下来的解决方案还没有找到。

  1. CSV文件的元数据显示为字符串,即使列中包含时间戳/日期值。爬虫正在读取这些数据类型作为字符串。
  2. 自定义分类器需要人工干预。我已经提到了分类器中的所有列名。有通用的解决方案吗?

如果我们使用pd.to_csv来写数据框,那么为了避免获得col1, col2等列名,请添加该参数index_label='index'如:

pd.to_csv(df,index_label='index')

相关内容

  • 没有找到相关文章