亚马逊网络服务 - 快速将发电机数据库表导出到 S3



所以我想将整个 DynamoDB 表转储到 S3。 本教程很好地解释了如何执行此操作。 给它一个测试,它奏效了...伟大

但是现在我想在相当大的生产数据(>100GB)上使用它。 我希望它能快速运行。 显然,我的 DynamoDB 表上的读取吞吐量是这里的一个因素,但有没有办法确保数据管道尽其所能。 我对这些不是很熟悉,设置后的架构师视图有实例类型和实例计数的区域,但增加这些会减少我的管道时间吗? 本教程除了指定要使用的表的吞吐量外,没有提到任何有关速度的内容。 它会基于此自动扩展吗?

该模板基于 datapipeline 团队在 gihub 上的开源示例。

您所指的模板在这里。

如果您查看管道定义,您会发现导出是通过 map-reduce 作业完成的。导出作业的可伸缩性应由该处理。

如果您需要获取有关 EMR 如何与 DynamoDB 配合使用的更多详细信息,请访问此处。如果增加实例数,则需要相应地调整表的吞吐量,以提高导出的并行度。

相关内容

  • 没有找到相关文章

最新更新