Julia自动推断DataFrame的列数据类型(相当于pd.inder_objects())



来自Python,我开始在一个大数据项目中使用Julia以提高其速度。当从.xlsx文件读取数据时,每列中的数据类型为";任何";,尽管大多数数据是整数或浮点。

有没有Julia的方法来推断DataFrame(如df = infertype.(df)(中的数据类型?考虑到数据类型的灵活性降低,这在Julia中可能很困难,但任何关于如何实现这一点的提示都将不胜感激。假设,我不知道哪一列是哪一列,但类型只能是int、float、string或date。

Using DataFrames
Using XLSX
df = DataFrame(XLSX.readtable("MyFile.xlsx", "Sheet1")...)

您可以执行以下操作:

df = DataFrame(XLSX.readtable("MyFile.xlsx", "Sheet1"; infer_eltypes=true)...)

此外,值得注意的是,在命令之前键入Julia?会显示包含以下信息的帮助:

help?> XLSX.readtable
readtable(filepath, sheet, [columns]; [first_row], [column_labels], [header], [infer_eltypes], [stop_in_empty_row], [stop_in_row_function]) -> data, column_labels
Returns tabular data from a spreadsheet as a tuple (data, column_labels). (...)
(...)
Use infer_eltypes=true to get data as a Vector{Any} of typed vectors. The default value is infer_eltypes=false.
(...)

最新更新