如何在 R 中的特征散列矩阵上使用 H2o

  • 本文关键字:H2o 特征 h2o
  • 更新时间 :
  • 英文 :


我正在处理一个中等数据集(train_data(。还有更多的 124 个变量和 50,00,000 个观测值。对于分类变量,我通过 R 中的 hashed.model.matrix 函数对其使用了特征散列。 

## feature hashing
b <- 2 ^ 22
f <- ~ .-1
X_train <- hashed.model.matrix(f, train_data, hash.size=b)

因此,结果,我得到了一个大的dgC矩阵(稀疏矩阵(作为输出(X_train(。我如何在这个矩阵上使用 H2o 包装器并使用 H2o 中可用的不同算法?H2o 包装器是否采用稀疏矩阵 (dgCmatrix(。此类用法的任何链接/示例都将有所帮助。谢谢期待。

期待在H2o环境中导入X_train做沾水型步骤

# initialize connection to H2O server
  h2o.init(nthreads = -1)
 train.hex <- h2o.uploadFile('./X_train', destination_frame='train')
# list of features for training
feature.names <- names(train.hex)
# train random forest model, use ntrees = 500 
drf <- h2o.randomForest(x=feature.names, y='outcome', training_frame,train.hex, ntrees =500)

您可以将稀疏矩阵保存为 svmlight 稀疏格式,然后使用

train.hex <- h2o.uploadFile('./X_train', parse_type = "SVMLight", destination_frame='train')

SVMLIGHT 稀疏格式也会被 h2o.importFile() 检测到,这是一个并行化的读取器,从客户端指定的位置从服务器中提取信息。

train.hex <- h2o.importFile('./X_train', destination_frame='train')

相关内容

  • 没有找到相关文章

最新更新