ML.NET:csv加载的类型推断



ML库的最低要求是,它能够推断出现实世界中ML应用程序中大量字段的类型(例如:2000(。

真实世界的ML应用程序存在于管道中。字面意思是:UNIX/Linux风格的fifoq中的管道,通过管道符号连接的命名管道。不是用第三方语言编写并编译的文档中的抽象"管道"。这些管道是一般类型的(一般来说,不是模板化的(,所有与UNIX/Linux管道相关的工具都在运行时推断类型。

这些工具允许动态生成csv字段和类型,并将其扩展到超出单个文件手动编码能力的任意宽度。

因此,再一次,ML库的最低要求是,当ML工程师可以在相同的时间内使用GNU工具+Python推出整个系统时,它能够打开一个ML文件,而不会把工作时间表交给他。

这意味着在一个潜在的动态生成和快速变化的CSV文件中推断大量字段的类型。理想情况下,相同的二进制控制台应用程序可以用于进化或开发管道的各个阶段的CSV数据,因此不需要注释字段类型和重新编译。

我正在查看ML.NET数据IO系统,以及F#的CsvProvider和C#的可用CSV库。我也在审查CLR/CLI互操作,因为我可以构建C++CSV推理系统,但CLR/CLI VS模板似乎只能在Windows平台上工作。

似乎无法加载具有推断的基本类型(datetime、double、int、string(的CSV。这是一个准确的评估吗?

查看新的Dataframe API。它上面有一个LoadCsv方法,可以推断列类型,并且它与ML.NET的IDataView兼容。

最新更新