小贝子编程

将R中的机器学习包应用于大型数据集

本文关键字：应用于大型数据集机器学习 machine-learning package scalability large-data
更新时间 : 2023-08-26
英文 : Apply the machine learning packages in R to a large data set

我有一个大约1GB的数据集，它不适合内存(因为当我们在R中应用LM时，它还创建了其他消耗内存的变量)。我想知道是否有一种方法可以在R中使用那些很好的机器学习包(例如，glm，随机森林，神经网络)来进行这种情况下的分析?谢谢大家的建议和参考。

查看CRAN的高性能任务视图，特别是关于大内存和内存外数据的部分。

或者:你可能需要花钱，但是考虑使用Microsoft R Server。MRS，以前被称为Revolution R Enterprise，是为了在处理大型数据集时打破内存障碍而设计的。它可以在Windows和Linux上使用，也可以使用SQL Server, Teradata, Hadoop (Cloudera, Hortonworks和HDInsight)和Spark进行数据库内分析。

披露:我是微软员工

如果你可以使用Spark，考虑使用sparklyr (free)

将R中的机器学习包应用于大型数据集

相关内容

最新更新

热门标签：