我刚刚运行了 Elastic Map Reduce 示例应用程序:"Apache Log Processing"
违约:当我使用默认配置(2 个小型核心实例)运行时 - 花了 19 分钟
横向扩展:然后我使用配置运行它:8 个小型核心实例 - 花了 18 分钟
扩大规模:然后我使用配置运行它:2 个大型核心实例 - 花了 14 分钟。
当我们拥有更大的数据集时,如何看待纵向扩展与横向扩展的性能?
谢谢。
说这取决于。我通常发现使用 m1.large 和 m1.xlarge 实例的原始处理速度要好得多。除此之外,正如您所注意到的,相同的作业可能会完成相同的摊销或规范化实例小时数。
对于您的作业,您可能希望首先试验较小的样本数据集,看看这需要多少时间,然后估计使用大型数据集完成整个作业所需的时间。我发现这是估计工作完成时间的最佳方式。