我有一个.nt格式的200GB RDF文件。我想在Virtuoso中加载它(使用Virtuoso开源版6.1.6)。我从命令行使用Virtuoso批量加载器,但运行几个小时后加载会挂起。你知道我怎样才能有效地把这个大文件装入Virtuoso吗?我想快点加载
我还试图从Apache Jena查询我的200GB RDF图。然而,运行30分钟后,它给了我一些堆大小空间相关的错误。如果你有任何解决上述问题的方法,请让我知道。
Jena TDB有一个批量加载器,用于大数据输入(数亿个三元组)。
您正在加载的实际数据集是什么?它实际上只是一个文件吗?我们建议将文件分成最大1GB左右的文件,并使用批量加载器一次加载多个文件。
您是否针对正在使用的机器上的可用资源对Virtuoso Server进行了性能调优,如RDF性能调优指南中详细介绍的那样?
请检查status('');
命令中使用了多少缓冲区,因为如果在加载期间缓冲区用完了,您将不断地交换到磁盘,这将导致您报告的那种明显的挂起。
注意您也可以加载Virtuoso LD Meter函数来监控数据集加载的进度。