如何从R Revolution Enterprise中的分离大文件中获取所有数据



我正在使用RevoR entreprise来处理大数据文件的输入。文档中给出的示例指出,将使用 rxImport 循环将 10 个文件(每个 1000000 行)作为数据集导入,如下所示:

setwd("C:/Users/Fsociety/Bigdatasamples")
Data.Directory <- "C:/Users/Fsociety/Bigdatasamples"
Data.File <- file.path(Data.Directory,"mortDefault")
mortXdfFileName <- "mortDefault.xdf"
append <- "none"
for(i in 2000:2009){
importFile <- paste(Data.File,i,".csv",sep="")
mortxdf <- rxImport(importFile, mortXdfFileName, append = append, overwrite = TRUE, maxRowsByCols = NULL)
append <- "rows"    
}
mortxdfData <- RxXdfData(mortXdfFileName)
knime.out <- rxXdfToDataFrame(mortxdfData)

这里的问题是,由于maxRowsByCols参数,我只在数据集中获得了 500000 行,默认值是1e+06我将其更改为更高的值,然后更改为NULL但它仍然截断了文件中的数据。

由于您要导入到XDF,因此maxRowsByCols无关紧要。 此外,在最后一行,您读入data.frame,这首先违背了使用XDF的目的。

这段代码确实适用于我的数据 http://packages.revolutionanalytics.com/datasets/mortDefault.zip,这就是我假设您正在使用的。

500K 行是由于 rowsPerRead 参数,但这只决定了块大小。 所有数据都以 500k 为增量读入,但可以更改以满足您的需求。

setwd("C:/Users/Fsociety/Bigdatasamples")
Data.Directory <- "C:/Users/Fsociety/Bigdatasamples"
Data.File <- file.path(Data.Directory, "mortDefault")
mortXdfFileName <- "mortDefault.xdf"
append <- "none"
overwrite <- TRUE
for(i in 2000:2009){
  importFile <- paste(Data.File, i, ".csv", sep="")
  rxImport(importFile, mortXdfFileName, append=append, overwrite = TRUE)
  append <- "rows"
  overwrite <- FALSE
}
rxGetInfo(mortxdfData, getBlockSizes = TRUE)
# File name: C:UsersdnortonOneDriveRMarchMadness2016mortDefault.xdf 
# Number of observations: 1e+07 
# Number of variables: 6 
# Number of blocks: 20 
# Rows per block (first 10): 5e+05 5e+05 5e+05 5e+05 5e+05 5e+05 5e+05 5e+05 5e+05 5e+05
# Compression type: zlib 
修复了

RxXdfData() 有一个 maxrowbycols 限制的问题,将其更改为 NULL 会将整个 rxXdfData 转换为 Knime 的 data.frame 对象。

最新更新