程序化数据转换策略



我有一个产品,它从客户端导入某些数据文件(即:用户目录等),并将导出其他类型的数据(即:报告等)。所有导入和导出当前都是CSV格式(rfc4180),文件通过托管文件传输来回传递。

我越来越多地看到客户端请求转换和重新配置这些数据文件,以便在其遗留系统中使用。对于导入数据文件,这是一个奇怪的请求,比如:

"我们将向您传递20个列,其中应用$business_logic到第4、7、5、18、19列,以确定系统需要的实际值第21列,然后删除那些原始列,因为它们对自身"

"第2列中的值用零填充,请去掉它。"

对于数据导出文件,它的请求如下:

"您正在向我们发送.csv,但我们需要采用特殊的固定宽度格式。"

您正在用小数格式化数字。删除这些数字,并以8个零作为前缀。

当然,我们船上的每个客户都有不同的要求。我很犹豫是否从头开始写一些东西,因为我想在构建不同格式的文件(csv、tsv、固定宽度、excel、石碑)和处理字符编码等方面会遇到各种各样的困难。我正在寻找的是某种开发框架(或商业产品),它将使我们能够快速满足不断增加的(和各种各样的)数据转换请求。一些轻量级的东西&简单是首选。

任何想法或经历都值得赞赏。

我不确定它是否完全适合,但您可以查看streamsets.com

它是一个用于数据移动和轻量级转换的开源工具。它允许您提供最小的输入模式(例如,我有CSV文件),这样您就不必处理您提到的很多事情。

*全面披露我是StreamSets 的工程师

最新更新