Pentaho ETL性能问题



我有一个Pentaho ETL作业/转换,读取文本文件,并插入一些记录到MS SQL数据库表。我每天都这么做。需要10分钟才能完成。当其他人执行它时,问题就出现了:时间增加到40分钟。所有的执行都发生在同一台机器上,使用相同的JRE版本。日志没有显示任何异常,只是步骤之间的时间间隔变长了。

系统信息:

  • Windows 8 Enterprise 64bits
  • JRE 1.7_79 32位
  • Pentaho 5.3.0 ms SQL 2000 (8.0)

命令:

C:SRbindata-integration>"C:SRbinjre1.7.0_79binjava.exe"  "-Xmx512m" "-XX:MaxPermSize=256m" "-Djava.library.path=libswtwin32" "-DKETTLE_HOME=" "-DKETTLE_REPOSITORY=" "-DKETTLE_USER=" "-DKETTLE_PASSWORD=" "-DKETTLE_PLUGIN_PACKAGES=" "-DKETTLE_LOG_SIZE_LIMIT=" "-DKETTLE_JNDI_ROOT=" -jar launcherpentaho-application-launcher-5.3.0.0-213.jar -lib ..libswtwin32  -main org.pentaho.di.kitchen.Kitchen /file C:SRconfigpentahovisao.kjb /param:"dia=29" /param:"mes=09" /param:"ano=2016" /param:"arquivo=Realize2016" /param:"dia_util=28" /norep 
我的日志

:

2016/09/27 11:26:03 - Reading of file MyFile.0 - Line number : 50000
2016/09/27 11:26:03 - Validate Records.0 - Linenr 50000
2016/09/27 11:26:03 - Discarded records.0 - Linenr 50000
2016/09/27 11:26:04 - Reading of file MyFile.0 - Line number : 100000
2016/09/27 11:26:04 - Validate Records.0 - Linenr 100000
2016/09/27 11:26:04 - Discarded records.0 - Linenr 100000
2016/09/27 11:26:05 - Reading of file MyFile.0 - Line number : 150000
2016/09/27 11:26:05 - Validate Records.0 - Linenr 150000
2016/09/27 11:26:05 - Discarded records.0 - Linenr 150000
2016/09/27 11:26:06 - Reading of file MyFile.0 - Line number : 200000
2016/09/27 11:26:06 - Validate Records.0 - Linenr 200000
2016/09/27 11:26:06 - Discarded records.0 - Linenr 200000
2016/09/27 11:26:07 - Reading of file MyFile.0 - Line number : 250000
2016/09/27 11:26:07 - Validate Records.0 - Linenr 250000
2016/09/27 11:26:08 - Discarded records.0 - Linenr 250000

My colleague log:

2016/09/29 10:13:26 - Reading of file MyFile.0 - Line number : 50000
2016/09/29 10:13:32 - Validate Records.0 - Linenr 50000
2016/09/29 10:13:32 - Discarded records.0 - Linenr 50000
2016/09/29 10:13:40 - Reading of file MyFile.0 - Line number : 100000
2016/09/29 10:13:46 - Validate Records.0 - Linenr 100000
2016/09/29 10:13:47 - Discarded records.0 - Linenr 100000
2016/09/29 10:13:56 - Reading of file MyFile.0 - Line number : 150000
2016/09/29 10:14:01 - Validate Records.0 - Linenr 150000
2016/09/29 10:14:02 - Discarded records.0 - Linenr 150000
2016/09/29 10:14:10 - Reading of file MyFile.0 - Line number : 200000
2016/09/29 10:14:17 - Validate Records.0 - Linenr 200000
2016/09/29 10:14:18 - Discarded records.0 - Linenr 200000
2016/09/29 10:14:26 - Reading of file MyFile.0 - Line number : 250000
2016/09/29 10:14:31 - Validate Records.0 - Linenr 250000
2016/09/29 10:14:32 - Discarded records.0 - Linenr 250000

肯定有什么不一样的。你们是在同一个账户上执行吗?在什么嫉妒中?Windows还是Linux?

你试过用平底锅/厨房执行吗?也许它将使您的环境标准化?

如果你上传了变换等,我会看一看

我终于找到了我的同事在执行任务时表现不佳的原因。

在比较了所有的环境变量和配置之后,他的配置文件缺少一些Kettle/Pentaho配置文件。这些文件是由Spoon创建的,我的同事从未执行过Spoon。他只使用厨房来运行作业。

文件创建在%USERPROFILE%中。水壶

我的个人资料和他的另一个不同之处在于Spoon上的默认位置设置。我的设置为en-US,而他的使用系统默认值(pt-BR)。

在配置文件之间的所有设置相同之后,执行时间显着减少:从40分钟(平均)到6分钟(平均)。

最新更新