使用R中的lage数据集(Sentinel 2)

我在Rstudio中使用了500多个Gigabyte Raster。

我的代码运行良好，但问题是R将所有光栅数据写入临时文件夹，这意味着计算时间超过4天(即使在SSD上(。有没有办法加快处理速度？我正在一台64GB RAM和1.5 GB SSD的电脑上工作。

向致以最良好的问候

我不知道Sentinel 2，所以在性能方面帮助您很复杂。基本上，您必须尝试(a(使用foreach和doparallel包进行一些并行计算，(b(找到更好的包来处理，或者(c(降低复杂性，此外还有诸如"R不适合大型数据集"之类的糟糕答案。

A( 其中一种解决方案是并行计算，如果可以划分你的计算(例如，你的问题包括很多计算，但你只是写结果(。例如对于foreach和doparallel封装，观察许多时间网络比使用"正常"串行for循环要快得多(例如，foreach/doparallel对于计算网络的每个成员和全局网络的基本统计信息非常有用，只要您需要在一次T和.combine对许多"子网络"或许多"网络"重复这些计算，就会在最大数据集中得到结果(。最后一个.combine参数。对于一个500gb的网络来说是无用的，所以你必须一个接一个地写结果，这将是非常长的(4天=几个小时或并行计算，假设并行计算将比你的实际计算快6或7倍(。

B( 有时，这只是确定一个更合适的包的问题，例如文本挖掘计算和quanteda package提供的性能。我更喜欢使用tidyverse风格来计算文本挖掘，但对于大型数据集，在迁移到另一种语言而不是R之前，quanteda最终非常强大且快速，即使在大型文本数据集上也是如此。在本例中，如果Quantada太慢，无法在数据集上计算基本文本挖掘，你必须迁移到另一种技术，或者停止部署"死亡计算"和/或降低问题/解决方案/数据集大小的复杂性(例如，Quanteda在500gb的超大数据集上计算GloVe模型的速度还不快，您已经达到了Quantda包提供的方法的边界，所以您必须尝试其他语言而不是R：Python或Java中的库(如SpaCy(将比R更好地在超大数据集部署GloVe模型，而且它与R相差不大(。

我建议尝试terra包，它的功能与raster几乎相同，但速度可能更快。

相关内容

最新更新

热门标签：