最佳实践将时间分区添加到表中



有一个事件表,按时间(年,月,日,小时)分区想参加蜂巢脚本的一些活动,这些活动会以变量为单位,月,日,小时,例如,您如何在我的时间之前的所有6小时内添加活动没有"恢复全部..."

10x

因此,基本上我需要的是一种使用蜂巢脚本作为参数的日期并在该日期前3小时和3小时添加所有分区,而无需恢复所有分区,并在每个条款中添加特定小时。

没有找到在Hive脚本中进行操作的方法,因此我编写了一个快速的Python代码,该代码获得了一个日期和表名,以及从前/之后的几个小时。尝试在Hive脚本中运行以下操作时!令我惊讶的是,变量变动不会以始于!

开始!

我的解决方法是使用类似的内容来获取从计算机中的日志文件中收到的蜂巢脚本的日期:'cat/mnt/var/log/hadoop/step/ls /mnt/var/log/hadoop/steps/ |sort -r|head -n 1/stdout'从那里您可以在Python代码中解析每个Hive参数,而无需通过Hive传递。

最新更新