正如你在这个答案中看到的。就地编辑文本文件似乎比创建新文件、删除旧文件并从另一个文件系统移动临时文件并重命名它花费的时间要长得多。更不用说在同一文件系统中创建一个新文件并重命名它了。我想知道这背后的原因是什么?
因为当您就地编辑文件时,您正在打开同一个文件进行写入和读取。但是当您使用另一个文件时。您只能从一个文件读取并写入另一个文件。 当您打开文件进行读取时,其内容将从磁盘移动到内存。然后,当您要编辑文件时,您可以更改磁盘中文件的内容,以便更新内存中的内容以防止数据不一致。但是当您使用新文件时。您不必更新内存中第一个文件的内容。您只需读取整个文件一次,然后写入另一个文件一次。并且不要更新任何内容。删除文件也需要非常短的时间,因为您只需将其从文件系统中删除,并且不会将任何位写入磁盘中文件的位置。重命名也是如此。根据文件系统的不同,移动也可以非常快地完成,但很可能不如删除和重命名快。
还有一个更重要的原因。
从第一行的开头删除数字时,所有其他字符必须向后移动一点。然后,当您再次从第二行中删除数字时,该点之后的所有字符都必须移回,因为这些字符必须是连续的。如果您只想更改一些字符,则就地编辑会更快。但是由于您在每次删除时都会更改文件的长度,因此所有其他字符都必须移动,这需要花费很多时间。它不完全是这样的,根据操作系统和文件系统的实现,它要复杂得多,但这就是它背后的想法。这就像数组操作。当您从数组中删除单个元素时,您必须移动数组的所有其他元素。因为它是一个数组。相反,如果您要从链表中删除元素,则不需要移动其他元素,但文件的实现方式类似于数组,因此就是这样。
虽然tgwtdt的回答可能会给出一些很好的见解,但它并不能解释一切。下面是一个 140MB 文件的反例:
$ time sed 's/a/b/g' data > newfile
real 0m2.612s
$ time sed -i -- 's/a/b/g' data
real 0m9.906s
你可能会问,为什么这是一个反例。因为我用b
替换a
,这意味着替换文本的长度相同。因此,不需要移动任何数据,但仍然花费了大约四倍的时间。
虽然 tgwtdt 给出了一个很好的理由来解释为什么到位通常需要更长的时间,但对于一般情况来说,这是一个无法 100% 回答的问题,因为它依赖于实现。