Spark SQL查询,以获取存储在AWS S3中的CSV格式的Athena表的最近更新的时间戳 &



是否可以使用Spark SQL查询以CSV文件格式存储在S3位置的Athena表的最后更新时间戳?

如果是,谁能提供更多的信息?

有多种方法可以做到这一点。

  1. 使用athena jdbc驱动程序并在格式为jdbc的地方执行spark读取。在这个阅读中,你将提供你的"select max(timestamp) from table";查询下一步,从spark数据帧
  2. 中保存到s3
  3. 您可以完全跳过jdbc读取,只使用boto3来运行上述查询。它将是start_query_execution和get_query_results的组合。然后你也可以保存到s3。

最新更新