小贝子编程

MLLIB仅接受LIBSVM数据格式吗?

本文关键字：数据格式 LIBSVM MLLIB apache-spark pyspark apache-spark-sql apache-spark-mllib
更新时间 : 2023-09-10
英文 : Does MLLib only accept the libsvm data format?

我在Hive中有火车设置桌。有600列，0〜599列是年龄，性别.....的功能，最后一列是0和1的标签。我将表读为DF，而DF也有600列。

但我发现在Spark（Python）的Docs中，该模型像随机森林一样，仅接受LIBSVM格式数据。

data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

所以我想知道MLLIB是否仅接受LIBSVM数据格式？如果是这样，我该如何将数据集转换为LIBSVM格式，因为我的数据集是存储为Hive表的分发数据。

谢谢

如果您的数据存储在Hive中，则可以通过SPARK SQL读取它们，并且可以获得数据帧，则可以通过SQARK训练数据框架。可以找到示例代码在此处输入链接描述

相关内容