将数据从 AWS SQS 传输到 S3 的最佳方式是什么?



是这样的 - 我有一个大型数据集,暂时保留在 AWS SQS 中(大约 200GB(。

我的主要目标是存储数据,以便我可以访问它以使用 AWS 构建机器学习模型。我相信,我应该将数据传输到 S3 存储桶。虽然处理小数据集时很简单,但我不确定处理大数据集的最佳方法是什么。

我无法在笔记本电脑上本地完成,是吗?那么,我是否创建一个 ec2 实例并在那里处理数据?亚马逊有许多不同的解决方案和集成方式,所以有点令人困惑。

感谢您的帮助!

用于

使用 AWS 构建机器学习模型。我相信,我应该将数据传输到 S3 存储桶。

恕我直言,好主意。事实上,S3 是保留数据并能够重用它们的最佳选择(与 sqs 不同(。AWS 工具 (sagemaker, ml( 可以直接使用 s3 中存储的内容。大多数机器学习框架都可以读取文件,您可以在其中轻松地从 s3 复制文件或将存储桶挂载为文件系统(不是我最喜欢的选项,但可以(

虽然处理小数据集时很简单,但我不确定处理大数据集的最佳方法是什么。

这取决于您拥有哪些数据以及如何存储和处理数据文件。

如果您计划为每个 sqs 消息创建一个文件,我建议您创建一个 lambda 函数(假设您可以相当快地读取和存储消息(。

如果要聚合和/或连接源消息,或者处理消息会花费太长时间,则可以编写脚本来读取和处理服务器上的数据。

我无法在笔记本电脑上本地完成,是吗?那么,我是否创建一个 ec2 实例并在那里处理数据?

好吧 - 理论上你可以在笔记本电脑上做到这一点,但这意味着下载 200G 并上传 200G(不包括开销和速度延迟(

恕我直言,您的直觉很好,在同一区域拥有EC2是最可行的,几乎可以在本地访问所有数据

亚马逊有许多不同的解决方案和集成方式,所以有点令人困惑。

对于不同的用例,您有许多可行的选项,通常是重叠的,因此确实可能看起来令人困惑

最新更新