从多个csv文件创建libsvm,用于xgboost外部内存训练



我正试图使用xgboost模型的外部内存版本来训练它,该版本将libsvm文件作为训练集。现在,所有的数据都存储在一堆csv文件中,这些文件组合在一起比我的内存大得多,比如70G。(你可以很容易地阅读其中的任何一个(。我只是想知道如何为xgboost创建一个大型libsvm文件。或者是否还有其他工作要做。非常感谢。

如果csv文件没有标题,可以将它们与Unixcat命令组合。

示例:

> ls
file1.csv file2.csv
> cat *.csv > combined.csv

现在combined.csv是所有其他文件的目录。

如果你所有的csv文件都有标题,你会想做一些更棘手的事情,比如用tail取n-1行。

XGBoost支持csv作为输入。

如果您想将其转换为libsvm,则可以使用phrag的脚本。

相关内容

  • 没有找到相关文章

最新更新