Pentaho 大型源表处理到目标表相同的模式



我目前有一个 etl 作业,它读取包含超过 100 万条记录的源表,然后按顺序处理到目标表。源和目标都位于同一架构中,但在两者之间有一个外部 rest 端点调用来发布源表中的一些数据,并且此作业现在执行非常糟糕,有人可以让我知道在如何并行化或减少获取大小等方面提高性能的一些方法可以减少此作业运行时间?

检查 rest 终结点是否支持批处理,然后实现它。 如今,大多数 API 都是这样做的。 (在这种情况下,您将一个 json/xml 文件中的多个请求发送到端点(

否则,您只需要使用 REST 客户端步骤的多个副本。 你至少应该能够逃脱8-10,但检查你在另一端是否以某种方式受到限制。

最后,如果这些都没有帮助,请尝试在 java 类步骤(而不是 javascript(中编造您自己的 httpclient,并确保通过保持会话打开来仅向 rest 端点进行身份验证一次,而不是每个请求。我不是 100% 相信其余客户端会这样做,身份验证通常是最昂贵的位。

最新更新