使用正则表达式(.NET Framework,C#)删除以"**"开头的所有行(注释)



我正在开发一个读取文本文件并使用文本文件的应用程序。这些文本文件具有以下结构:

** A comment
* A command
Data, data, data
** Some other comment
* Another command
1, 2, 3
4, 5, 6

我使用string text = File.ReadAllText(file);将整个文本文件存储在内存中。但是,我想删除所有作为注释的行,即所有以"**"开头的行。

这可以通过以下方法实现:

// this method also removes any white-spaces (this is intended)
string RemoveComments(string textWithComments)
{
string textWithoutComments = null;
string[] split = Regex.Split(text.Replace(" ", null), "rn|r|n").ToArray();
foreach (string line in split)
if (line.Length >= 2 && line[0] == '*' && line[1] == '*') continue;
else textWithoutComments += line + "rn";
return textWithoutComments;
}

然而,对于大文件来说,这实际上非常慢。我还认为可以用一行代码替换整个方法(可能使用Regex(。我如何才能做到这一点(我也从未使用过regex(。

PS:我也想避免StreamReaders。

编辑

一个示例文件如下所示:

** Initial comment
*Command-0
** Some Comment: Header: Text
** Some text: text
*Command-1
**
** Some comment or text
**
*Command-2
*Command-3
1,            2,            3
2,            2,            4
3,            2,            5
** END COMMENT

为什么不只是:

var text = @"** A comment
* A command
Data, data, data
** Some other comment
* Another command
1, 2, 3
4, 5, 6";
var textWithoutComments = Regex.Replace(text, @"(^|n)**.*(?=n)", string.Empty); //this version will leave a n at the beginning of the string if the text starts with a comment.
var textWithoutComments = Regex.Replace(text, @"(^**.*rn)|((rn)**.*($|(?=rn)))", string.Empty); //this versioh deals with that problem, for a longer regex that treats the first line differently than the other lines (consumes the n rather than leaving it in the text)

不知道性能,我还没有准备好测试数据。。。

附言:我也倾向于相信,如果你想要最高的性能,一些流媒体可能是理想的,你总是可以从该方法返回一个字符串,如果这可以让以后的处理更容易的话。我认为这个线程中的大多数人都建议StreamReader用于迭代/读取/解释部分,而不管您决定构建什么返回类型。

每次字符串大小发生变化时,连接字符串将重新分配内存。

StringBuilder不会经常重新分配,并且会显著降低*运行时

string RemoveComments(string textWithComments)
{
StringBuilder textWithoutComments = new StringBuilder();
string[] split = text.Replace(" ", null).Split('r', 'n');
foreach (string line in split)
if (line.Length >= 2 && line[0] == '*' && line[1] == '*') continue;
else textWithoutComments.Append(line + "rn");
return textWithoutComments.ToString();
}

在Aluan的建议中编辑

我知道你说过你不想使用StreamReader,但下面的代码可以在我的电脑上用不到半秒的时间处理40万行。它简单、直接、快速。

static void RemoveCommentsAndWhitespace(string filePath)
{
if (!File.Exists(filePath))
{
Console.WriteLine($"ERR: The file '{filePath}' does not exist.", nameof(filePath));
}
string outfile = filePath + ".out";
using StreamReader sr = new StreamReader(filePath);
using StreamWriter sw = new StreamWriter(outfile);
string line;
while ((line = sr.ReadLine()) != null)
{
string tmp = line.Replace(" ", string.Empty);
if (tmp.StartsWith("**"))
{
continue;
}
sw.WriteLine(tmp);
}
Console.WriteLine($"Wrote to {outfile}.");
}

最新更新