我一直在阅读SimpleDB,其中一个缺点(对我来说)是每个属性的最大1kb限制。我做了很多RSS提要处理,我希望将提要数据存储在SimpleDB(文章)中,据我所知,实现这一目标的最佳方法是跨多个属性对文章进行分片。典型的文章是<30kb纯文本。
我目前在DynamoDB (gzip压缩)中存储文章数据,没有任何问题,但成本相当高。我希望迁移到SimpleDB以获得更便宜的存储和快速检索。我在S3上存档了所有rss文章的json副本(多年的mysql头痛使我对db的警惕)。
有谁知道将字符串分片成<1 kb块吗?我假设需要在每个块上附加一个标识符以确定重组的顺序。
任何想法都将非常感激!
切片应该可以。你只需要跟踪这些碎片。
>>> x = "big string with lots of words"
>>> x[2:10]
'g string'
>>> x[10:20]
' with lots'
>>> x[20:29]
' of words'
我选择在Amazon S3中存储大型文本文档(检索似乎很快),我将实现一个EC2实例,用于用S3缓存文档作为故障转移。