DynamoDB 中的原子计数器映射



我有一个由dynamoDB(表"A")触发的Lambda函数,并且对于每个检索到的执行计数和聚合到另一个dynamoDB表(表"B")。我的用例需要原子计数器的映射,

假设dynamoDB表"A"中的一个项目如下所示:

Item 1: {'user': 'foo', 'letter': 'a'}
Item 2: {'user': 'foo', 'letter': 'b'}
Item 3: {'user': 'foo', 'letter': 'b'}
Item 4: {'user': 'foo', 'letter': 'c'}
Item 5: {'user': 'bar', 'letter': 'a'}
Item 6: {'user': 'bar', 'letter': 'd'}

(注意:我的真实用例有数千个"用户",每个用户有数千个项目,我的"字母"范围是~400)

因此,我希望表"B"看起来像:

Item 1: {'user': 'foo', letter_map {'a' : 1, 'b' : 2, 'c': 1}, total_letters : 4}
Item 2: {'user': 'bar', letter_map {'a': 1, 'd': 1}, total_letters : 2}

我有一个 AWS Lambda 函数,该函数从表"A"构建 dynamoDB 流,并使用以下UpdateExpression创建到表"B"的put_item:

UpdateExpression: 'ADD letter_map.#letter :val, total_letters :val',
ExpressionAttributeNames: { '#letter' : RetreivedTableAItem['letter']}
ExpressionAttributeValues: {':val': 1}

问题是表 A 上的put_items可以同时发生,我希望原子计数器能帮助我解决并发问题,但我观察到total_letters计数器确实是原子的并且性能良好,而如果我对同一用户进行并发写入,计数器的letter_map映射正在重置,

注意:在用户创建时,我创建了一个空letter_map,以处理此处提到的限制。我还尝试在所有可用的字母上将我的整个letter_map初始化为 0,但也没有用。

这是正常行为还是错误?

如果正常,关于如何完成计数器映射任务的任何建议?

如果您的哈希键是"User",则同一用户的表"B"上的put_item不能同时发生(通过 lambda)。 每个 Lambda 都可以在一个 Dynamo 数据库分片上工作,并在每个分片上串行处理项目(以保护排序)。 因此,如果"用户"是您的哈希键,那么可以保证用户"X"将始终位于同一分片上。

我认为,如果您遇到此类问题(重置),那是因为代码中存在其他错误。

来自 AWS 文档:

发送到您的 AWS Lambda 函数的 Amazon Kinesis 和 DynamoDB Streams 记录将按分片严格序列化。这意味着,如果您将两个记录放在同一个分片中,Lambda 保证您的 Lambda 函数在使用第二条记录调用之前,将使用第一条记录成功调用。如果对一个记录的调用超时、受到限制或遇到任何其他错误,Lambda 将重试,直到成功(或记录达到其 24 小时到期时间),然后再转到下一条记录。不保证不同分片之间的记录顺序,并且每个分片的处理都是并行进行的。

最新更新