来自Python,我开始在一个大数据项目中使用Julia以提高其速度。当从.xlsx文件读取数据时,每列中的数据类型为";任何";,尽管大多数数据是整数或浮点。
有没有Julia的方法来推断DataFrame(如df = infertype.(df)
(中的数据类型?考虑到数据类型的灵活性降低,这在Julia中可能很困难,但任何关于如何实现这一点的提示都将不胜感激。假设,我不知道哪一列是哪一列,但类型只能是int、float、string或date。
Using DataFrames
Using XLSX
df = DataFrame(XLSX.readtable("MyFile.xlsx", "Sheet1")...)
您可以执行以下操作:
df = DataFrame(XLSX.readtable("MyFile.xlsx", "Sheet1"; infer_eltypes=true)...)
此外,值得注意的是,在命令之前键入Julia?
会显示包含以下信息的帮助:
help?> XLSX.readtable
readtable(filepath, sheet, [columns]; [first_row], [column_labels], [header], [infer_eltypes], [stop_in_empty_row], [stop_in_row_function]) -> data, column_labels
Returns tabular data from a spreadsheet as a tuple (data, column_labels). (...)
(...)
Use infer_eltypes=true to get data as a Vector{Any} of typed vectors. The default value is infer_eltypes=false.
(...)