我正在尝试使用幕府将军工具箱来将这个数据集中的人分类为淹死与否。
我想使用幕府将军引擎,如CFIle,LibSVMFile,SparseRealFeatures等......正如幕府将军介绍中提到的,但我被卡住了。
首先,在本介绍中,您直接加载该格式的 LibSVMFile,但是,作者没有提到他们如何从 CSV 格式(这是他使用的数据集的原始格式)生成数据文件......
由于我没有所需格式的数据集,我尝试使用 CFile 类加载我的数据集,甚至更好的是使用 CCSVFile 类加载我的数据集,但我得到了
NameError: name 'CFile' is not defined
和
NameError: name 'CCSVFile' is not defined
(我通过从 Ubuntu 17.10 中的源代码编译的 Python3 使用幕府将军,并且我正在导入所有带有"来自幕府将军导入 *"的幕府将军)
然而,当我使用
data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))
与示例中一样,没有关于未定义类的错误,但是 正如预期的那样,它退化为:
[1] 8870 segmentation fault (core dumped) python3 titanic.py
我想知道使用此幕府将军引擎以加载数据集的正确方法是什么......
在其他幕府将军笔记本中,他们没有使用它们,只是使用其他库加载数据集,我开始认为这是最好的方法。
要读取 CSV 文件,您应该运行以下命令(在 python 中):
import shogun as sg
train_csv = sg.CSV("train.csv")
但请注意,该文件包含许多需要编码的分类,因此在实际尝试在幕府将军模型中使用它之前,首先您应该进行一些数据修改。