推断任意CSV文件的类型信息



我想使用下面的控制台程序来获取Csv类型提供程序的类型信息(而不是数据)。文件名将作为命令行参数传递。然而,CsvProvider<>似乎只接受常量文字。

有办法解决这个问题吗?或者有可能使用f#脚本?或者f#编译器服务可以提供帮助吗?

或者有其他项目这样做吗?

open FSharp.Data
open Microsoft.FSharp.Collections
open System
[<Literal>] 
let fn = """C:...myfile.csv""" // Want to dynamically set the fn from arguments
[<EntryPoint>]
let main argv = 
    let myFile = CsvProvider<fn>.GetSample()
    // The following doesn't work
    let fn = argv.[0]
    let myFile = CsvProvider<fn>.GetSample()
    // code to get type information of myFile

我认为您可能误解了CSV类型提供程序的目的—其思想是在编译时提供具有代表性的数据样本(并且可以使用它来指导类型推断)。在运行时,您只需以相同的格式给它(可能是不同的)文件。这为您提供了一种处理已知格式文件的好方法。

如果你想解析任意CSV文件(具有不同的头等),那么CSV类型提供程序将无法提供帮助。但是,您仍然可以使用f# Data中的CsvFile类型,它提供了一个简单的CSV解析器。文档中的示例:

// Download the stock prices
let msft = CsvFile.Load("http://ichart.finance.yahoo.com/table.csv?s=MSFT")
// Print the prices in the HLOC format
for row in msft.Rows do
  printfn "HLOC: (%s, %s, %s)" (row.GetColumn "High") 
     (row.GetColumn "Low") (row.GetColumn "Date")

在这里,您失去了漂亮的静态类型,但是您可以以任何格式加载文件(然后动态查看文件中可用的列)。

Tomas建议,可以使用以下f# -Data CSV provider函数来解决这个问题。

let data = CsvFile.Load(....)
let inferredProperties =
    // InferColumnTypes : inferRows:int 
    // * missingValues:string [] 
    // * cultureInfo:CultureInfo 
    // * schema:string 
    // * assumeMissingValues:bool 
    // * preferOptionals:bool 
    // * ?unitsOfMeasureProvider:IUnitsOfMeasureProvider 
    // -> PrimitiveInferedProperty list
    data.InferColumnTypes(10000, [|""|], CultureInfo.InvariantCulture, "", false, true)

不确定应该使用哪些参数。但是上面的设置似乎可以正常工作。

相关内容

  • 没有找到相关文章

最新更新