在使用yarn和tez引擎的mapr集群中,我们需要使用jdbc连接器从datastage查询配置单元数据。在某些情况下,由于数据大小的原因,我们需要增加tez容器的大小。我们在并行作业中的before-sql语句中执行此操作,然后在主作业语句中查询数据。
问题是before-sql语句SET hive.tez.container.size=3000
耗时数小时,但对数据的查询运行良好(几秒钟(。
这可能与当时集群的繁忙程度有关吗?队列中有很多工作??不要这么认为,因为它总是在set语句中崩溃,但在select语句中永远不会崩溃。提前感谢!
我建议使用IBM提供的配置单元JDBC驱动程序和配置单元连接器阶段,该阶段允许通过内置的阶段属性设置配置单元参数。
当DataStage作业运行缓慢时,可能有几个原因,从你所说的,在sql语句之前设置hive.tez.contage.size=3000需要几个小时,我建议在运行DataStage任务时查看hive DB方面。
如果您没有使用IBM提供的Hive JDBC驱动程序,那么最好使用第三方Hive JDBC驱动器的官方支持来启用JDBC驱动程序跟踪。