逐行读取大文件并避免 Rust 中的 utf8 错误

我有一个非常大的文件，"应该"由JSON字符串组成。但是，当我使用以下代码时，我得到"流不包含有效的 UTF8"。

let file = File::open("foo.txt")?;
let reader = BufReader::new(file);
for line in reader.lines() {
println!("{}", line?);
}
Ok(())

现在问题的答案是使用 Vec 而不是 String。但是我看到的所有代码都file.read_to_end(buf)作为答案，它不适用于我必须使用的文件大小。

我正在寻找的是逐行读取文件，使用有损 utf8 转换，然后进行一些计算并将输出推送到另一个文件。

您可以使用BufReader的read_until函数。它与File的read_to_end非常相似，但也采用byte分隔符参数。此分隔符可以是任何字节，n字节换行符适合您。之后，您可以从 UTF-8 有损地转换缓冲区。它看起来像这样：

let file = File::open("foo.txt")?;
let mut reader = BufReader::new(file);
let mut buf = vec![];
while let Ok(_) = reader.read_until(b'n', &mut buf) {
if buf.is_empty() {
break;
}
let line = String::from_utf8_lossy(&buf);
println!("{}", line);
buf.clear();
}
Ok(())

当然，这可以抽象成一个迭代器，就像 Lines 一样，但基本逻辑与上面相同。

注意：与lines函数不同，生成的字符串将包括换行符和回车符(r((如果有(。如果解决方案的行为必须与lines函数匹配，则需要去除这些字符。

相关内容

最新更新

热门标签：