使用AWS将两个源DynamoDB表转换为一个新的DynamoDB



所以我有两个源表,让我们调用,table1table2,以及目标表table3-在这些表中,有一些信息需要从一个表的列和另一个表中的列中提取,然后组合起来为新表提供列条目。

把它看作是一个复杂的转变;例如:

在新的转换表中,从table1中提取的column1中的部分文本和table2column1中的完整文本组合成column1的4行(取决于table1column1的JSON(

因此,这不是一个表和另一个表之间的1对1映射,而是一个1对多映射,其中源表的1行来自两个源表中的一行的混合,转换为新目标表的许多行。

这是胶水工作可以完成的吗?还是我更适合写一个一次性的Python脚本?您可以假设表的大小与无关

如果您计划以某种频率运行此过程,这是Glue的完美用例。如果这只是一次性的,Glue也是一个不错的选择,但Glue主要是为重复使用而设计的
在粘贴脚本中,我预计您最终会连接两个表,然后通过组合现有列来选择新的结果列和行。通常,要遵循的模式是将动态帧(通过粘合创建(转换为pyspark数据帧,然后从那里使用pyspark,在输出到数据库之前转换回动态帧
请注意,根据您的设计,您可能不需要添加行,当然这取决于您所寻求的结果,但Dynamo确实支持一些漂亮的分层方法,这些方法可能会消除您对多行的需求
如果您有更具体的模式示例和您正在寻求的结果,我可以向您展示一些示例代码。

相关内容

最新更新