我正在读取一个文件(该文件由一个长字符串组成,长度为2gb)。
这是我的函数,它读取文件的所有内容到内存中,然后拆分字符串并放置:*reader = StreamReader
public List<char[]> GetAllContentAsList()
{
int bytesToRead = 1000000;
char[] buffer = new char[bytesToRead];
List<char[]> results = new List<char[]>();
while (_reader.Read(buffer, 0, bytesToRead) != 0)
{
char[] temp = new char[bytesToRead];
Array.Copy(buffer,temp,bytesToRead);
results.Add(temp);
}
return results;
}
当所有数据放入List时,它占用4gb的RAM。当文件大小只有2gb时,这怎么可能呢?
*编辑这就是我最后所做的。我没有将字节数组转换为字符串,我只是在操作它们时传递字节。这是字段在内存中只有2Gb而不是4gb
public List<byte[]> GetAllContentAsList()
{
int bytesToRead = 1000000;
var buffer = new byte[bytesToRead];
List<byte[]> results = new List<byte[]>();
while (_reader.Read(buffer, 0, bytesToRead) != 0)
{
//string temp = Encoding.UTF8.GetString(buffer);
byte[] b = new byte[bytesToRead];
Array.Copy(buffer,b,bytesToRead);
results.Add(b);
}
return results;
}
有根据的猜测:
该文件是UTF-8或ASCII编码的,并且只(大部分)包含单字节宽的字符(或者可能包含其他一些主要是单字节宽的代码页)。
现在,. net字符是UTF-16,长度都是2(或更多)字节。
那么,在内存中,字符的大小将是原来的两倍。