我在Hive中有火车设置桌。有600列,0〜599列是年龄,性别.....的功能,最后一列是0和1的标签。我将表读为DF,而DF也有600列。
但我发现在Spark(Python)的Docs中,该模型像随机森林一样,仅接受LIBSVM格式数据。
data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")
所以我想知道MLLIB是否仅接受LIBSVM数据格式?如果是这样,我该如何将数据集转换为LIBSVM格式,因为我的数据集是存储为Hive表的分发数据。
谢谢
如果您的数据存储在Hive中,则可以通过SPARK SQL读取它们,并且可以获得数据帧,则可以通过SQARK训练数据框架。可以找到示例代码在此处输入链接描述