最近我们开始将备份存储在 aws s3 中。我们需要通过 aws athena 查询的所有 csv 文件。 我们尝试一个接一个地插入表格,但花费的时间太长,这是相当多的数据。有没有我们可以使用的 API 或设置的东西? 我们正要用Spark做一些事情,但也许有一种更简单的方法,或者已经完成的事情。 谢谢
您只需在具有所需属性的 CSV 文件之上创建一个外部表即可。
参考 : 在 AWS 雅典娜上创建外部表
您还可以使用粘附爬网程序并将其配置为自动为您填充表。
参考 : 使用爬网程序对表进行编目
(此处(有不同的 AWS 开发工具包可用于自动执行您的任务,例如将文件上传到 S3、创建 athena 表或通过胶水爪对表进行编目。