我下载了德国wikipedia dump dewiki-20151102-pages-articles-multistream.xml。我的简短问题是:在这种情况下,"多流"是什么意思?
使用bz2压缩转储,bz2支持并行版本,可以更快地压缩/解压缩文件。使用并行版本的压缩数据被标记为multistream
。
当您从编程语言处理转储时,知道这些信息会有所不同,因为您必须传递一个标志来告诉库如何解压缩(并行或非并行)。
multistream
允许使用索引根据需要解压缩部分,而不必解压缩整个部分。
这允许读者从压缩的转储中提取文章。