如何在不将二进制文件加载到内存的情况下从二进制文件的开头删除(remove|trim(N个字节?
我们有fs.ftruncate(fd, len, callback)
,它从文件末尾截取字节(如果它更大的话(。
如何在Node.js中从头开始剪切字节,或者从头开始修剪而不读取内存中的文件?
我需要truncateFromBeggining(fd, len, callback)
或removeBytes(fd, 0, N, callback)
之类的东西。
如果不可能,使用文件流最快的方法是什么?
在大多数文件系统上;切割";文件开头或中间的部分,只能在末尾截断。
我想,考虑到以上情况,我们可能必须打开输入文件流,在第N个字节之后查找,并将其余字节pipe
作为输出文件流。
您要求的是操作系统文件系统操作:能够在不重写文件的情况下从文件开头删除一些字节。
您要求的文件系统操作不存在,至少在Linux/FreeBSD/MacOS/Windows中是这样。
如果你的程序是文件的唯一用户,并且它适合RAM,你最好的办法是将整个文件读入RAM,然后重新打开文件进行写入,然后写出你想要保留的部分。
或者您可以创建一个新文件。假设您的输入文件名为q
。然后,您可以创建一个名为new_q
的文件,并附加一个流。你可以通过管道将你想要的内容发送到新文件。然后取消链接(删除(输入文件q
,并将输出文件new_q
重命名为q
。
小心:当没有名为q
的文件可用时,此取消链接/重命名操作将创建短时间。因此,如果其他程序试图打开它,但没有找到它,它应该再试几次。
如果您正在创建一个排队方案,您可能会考虑使用其他方案来保存队列数据。这个文件读取/重写/取消链接/重命名序列有很多方法可以在负载过重的情况下出错。(问我,当你有几个小时的空闲时间时,我是怎么知道的;-(redis
值得一看。
我决定解决bash
中的问题。
脚本首先截断temp
文件夹中的文件,然后将它们移回原始文件夹。
截断是用tail
:完成的
tail --bytes="$max_size" "$from_file" > "$to_file"
完整脚本:
#!/bin/bash
declare -r store="/my/data/store"
declare -r temp="/my/data/temp"
declare -r max_size=$(( 200000 * 24 ))
or_exit() {
local exit_status=$?
local message=$*
if [ $exit_status -gt 0 ]
then
echo "$(date '+%F %T') [$(basename "$0" .sh)] [ERROR] $message" >&2
exit $exit_status
fi
}
# Checks if there are any files in 'temp'. It should be empty.
! ls "$temp/"* &> '/dev/null'
or_exit 'Temp folder is not empty'
# Loops over all the files in 'store'
for file_path in "$store/"*
do
# Trim bigger then 'max_size' files from 'store' to 'temp'
if [ "$( stat --format=%s "$file_path" )" -gt "$max_size" ]
then
# Truncates the file to the temp folder
tail --bytes="$max_size" "$file_path" > "$temp/$(basename "$file_path")"
or_exit "Cannot tail: $file_path"
fi
done
unset -v file_path
# If there are files in 'temp', move all of them back to 'store'
if ls "$temp/"* &> '/dev/null'
then
# Moves all the truncated files back to the store
mv "$temp/"* "$store/"
or_exit 'Cannot move files from temp to store'
fi