如何使用Pentaho Data Integration-Spoon(Kettle)将CSV从HTTPS URL下载到文



在谷歌上搜索这个问题时,它似乎被问了很多次,但都得到了部分(而且很差(的回答,大多数是针对旧版本的。

问题:在以下限制条件下,如何将CSV下载到本地文件我在Spoon设计。

URL:将始终相同。https://example.com/data/my.csv。网站准备csv,并在大约4-5秒后将其作为文件下载提供给网络客户端。在浏览器中,这意味着它以.csv文件的形式下载,而不显示。

身份验证:网站访问不需要身份验证。数据不敏感。

本地文件路径:下载的CSV将覆盖现有的CSV。例如:d:\data\my.csv。我可以在计时器上设置它,让它每小时左右下载一次最新的csv。

代理:我很可能需要遍历网络代理。例如badproxy.mynetwork.internal:8080,该代理需要用户名和密码。如果我能在一个位置设置这个密码,这样以后创建的任何东西都可以引用它,那就更好了。我也不太确定如何处理这个问题。

我的其余过程集中在处理csv的内容上,并且已经很好地工作了。

我在谷歌上发现的进程显示使用Http客户端组件,尽管这并不是特别简单,如何将文件转换为本地保存到已知位置。

谢谢你的指点。

PDI v9.0.0.0-423

需要触发HTTP客户端步骤。使用行生成器步骤生成例如1个空行,并通过跳转将其链接到HTTP客户端步骤。对于您的解决方案,请尝试以下操作:数据网格-->HTTP客户端-->CSV文件输入->文本文件输出(扩展名为csv(

最新更新