我正试图使用xgboost模型的外部内存版本来训练它,该版本将libsvm文件作为训练集。现在,所有的数据都存储在一堆csv文件中,这些文件组合在一起比我的内存大得多,比如70G。(你可以很容易地阅读其中的任何一个(。我只是想知道如何为xgboost创建一个大型libsvm文件。或者是否还有其他工作要做。非常感谢。
如果csv文件没有标题,可以将它们与Unixcat
命令组合。
示例:
> ls
file1.csv file2.csv
> cat *.csv > combined.csv
现在combined.csv
是所有其他文件的目录。
如果你所有的csv文件都有标题,你会想做一些更棘手的事情,比如用tail
取n-1行。
XGBoost支持csv作为输入。
如果您想将其转换为libsvm,则可以使用phrag的脚本。