我正在尝试实现从us-east-1到us-west-1的跨区域复制。
我使用Amazon Data Pipeline中的跨区域复制模板每隔几个小时复制一个表,但是我无法获得增量复制工作。我必须在DefaultHiveCopyActivity1下的活动下填写筛选SQL字段。该表包含一个名为时间戳的列,它是一个格式为yyyy-MM-dd HH:mm:ss的字符串。包含请求时间的SSS。
我一直试图将字符串转换为unix_timestamp并从unix_timestamp的当前值减去7200(因为管道活动应该每两个小时运行一次,因此可以在表中找到2小时前的时间戳的每条记录)。我使用这个Filter SQL字段值:unix_timestamp(timestamp, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200
管道失败
我甚至尝试检查一个简单的请求,例如将以下内容放入Filter SQL字段(它自己添加了反斜杠):timestamp = "2014-04-30 22:55:41.301"
-根据我应该进入的文档:一个Hive SQL语句片段,过滤DynamoDB或Amazon S3数据的子集进行复制。过滤器应该只包含谓词,而不是以WHERE子句开头,因为AWS Data Pipeline会自动添加它。这个管道也会失败,即使表中有一条与该值完全相同的记录。在没有SQL筛选器的情况下,从一个区域复制到另一个区域也可以。
我得到的错误是:FAILED: Parse Error: line 2:131 cannot recognize input near 'timestamp' ',' '"yyyy-MM-dd HH:mm:ss.SSS"' in function specification
http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-crossregionddbcopy.htmlhttp://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hivecopyactivity.html
HiveQL查询中的时间戳字段应该像这样被反勾,因为时间戳似乎是Hive中的关键字,而时间戳列名被引用:unix_timestamp(`timestamp`, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200