C# 正则表达式解析 ICA 格式的文件,并用结果填充对象



我正在尝试解析具有以下格式的文件:

BEGIN:VEVENT
CREATED:20120504T163940Z
DTEND;TZID=America/Chicago:20120504T130000
DTSTAMP:20120504T164000Z
DTSTART;TZID=America/Chicago:20120504T120000
LAST-MODIFIED:20120504T163940Z
SEQUENCE:0
SUMMARY:Test 1
TRANSP:OPAQUE
UID:21F61281-FB76-467F-A2CC-A666688BD9B5
X-RADICALE-NAME:21F61281-FB76-467F-A2CC-A666688BD9B5.ics
END:VEVENT

我需要获取每行冒号或分号后找到的值,并将它们放入对象的道具中。 我正在尝试使用正则表达式执行此操作,但是在使用正则表达式后,我基本上忘记了我对正则表达式的了解(可能是一年两次)。 任何帮助将不胜感激。

编辑

这篇文章让我想到了iCal格式。

在昨天之前,我不知道iCal格式是什么。但是,在阅读了 1998 年的规范后,很明显,此页面上的所有答案都不足以解析内容。而且,即使对于我下面的一般正则表达式来说,它也真的太复杂了。

考虑到这一点,这里有一个解决方案,它只解析行内容,从一般行内容解析的规范中收集到。这是朝着正确方向迈出的一步,希望有人能受益。它不执行行继续,也不进行验证。

C# 代码

Regex iCalMainRx = new Regex(
 @" ^  (?<name> [^[:cntrl:]"";:,n]+ )
       (?<parameter>
          ;
          (?<param_name> [^[:cntrl:]"";:,n]+ )
           = 
          (?<param_value> 
             (?: (?:[^Sn]|[^[:cntrl:]"";:,])*  | "" (?:[^Sn]|[^[:cntrl:]""])* "" )
             (?: , (?: (?:[^Sn]|[^[:cntrl:]"";:,])*  | "" (?:[^Sn]|[^[:cntrl:]""])* "" ) )*
          )
        )*
        :
        (?<value> (?:[^Sn]|[^[:cntrl:]])* )
     $ ", RegexOptions.IgnorePatternWhitespace);
Regex iCalPvalRx = new Regex(
 @" ^ (?<pvals> (?:[^Sn]|[^[:cntrl:]"";:,])*  | "" (?:[^Sn]|[^[:cntrl:]""])* "" )
      (?: ,+ (?<pvals> (?:[^Sn]|[^[:cntrl:]"";:,])*  | "" (?:[^Sn]|[^[:cntrl:]""])* "" ) )*
    $ ", RegexOptions.IgnorePatternWhitespace);

string[] lines = {
    "BEGIN:VEVENT", 
    "CREATED:20120504T163940Z", 
    "DTEND;TZID=America/Chicago:20120504T130000", 
    "DTSTAMP:20120504T164000Z", 
    "DTSTART;TZID=,,,America/Chicago;Next=;last="this:;;;:=";final=:20120504T120000", 
    "LAST-MODIFIED:20120504T163940Z", 
    "SEQUENCE:0", 
    "SUMMARY:Test 1", 
    "TRANSP:OPAQUE", 
    "UID:21F61281-FB76-467F-A2CC-A666688BD9B5", 
    "X-RADICALE-NAME:21F61281-FB76-467F-A2CC-A666688BD9B5.ics", 
    "END:VEVENT", 
};
foreach (string str in lines)
{
    Match m_content = iCalMainRx.Match( str );
    if (m_content.Success)
    {
        Console.WriteLine("Key =   " + m_content.Groups["name"].Value);
        Console.WriteLine("Value = " + m_content.Groups["value"].Value);
        CaptureCollection cc_pname  = m_content.Groups["param_name"].Captures;
        CaptureCollection cc_pvalue = m_content.Groups["param_value"].Captures;
        if (cc_pname.Count > 0)
        {
            Console.WriteLine("Parameters: ");
            for (int i = 0; i < cc_pname.Count; i++)
            {
                // Console.WriteLine("t'" + cc_pname[i].Value + "'  =   '" + cc_pvalue[i].Value + "'");
                Console.WriteLine("t'" + cc_pname[i].Value + "' =");
                Match m_vals = iCalPvalRx.Match( cc_pvalue[i].Value );
                if (m_vals.Success)
                {
                    CaptureCollection cc_vals = m_vals.Groups["pvals"].Captures;
                    for (int j = 0; j < cc_vals.Count; j++)
                    {
                        Console.WriteLine("tt'" + cc_vals[j].Value + "'");
                    }
                }
            }
        }
        Console.WriteLine("-------------------------");
    }
}

输出

Key =   BEGIN
Value = VEVENT
-------------------------
Key =   CREATED
Value = 20120504T163940Z
-------------------------
Key =   DTEND
Value = 20120504T130000
Parameters:
        'TZID' =
                'America/Chicago'
-------------------------
Key =   DTSTAMP
Value = 20120504T164000Z
-------------------------
Key =   DTSTART
Value = 20120504T120000
Parameters:
        'TZID' =
                ''
                'America/Chicago'
        'Next' =
                ''
        'last' =
                '"this:;;;:="'
        'final' =
                ''
-------------------------
Key =   LAST-MODIFIED
Value = 20120504T163940Z
-------------------------
Key =   SEQUENCE
Value = 0
-------------------------
Key =   SUMMARY
Value = Test 1
-------------------------
Key =   TRANSP
Value = OPAQUE
-------------------------
Key =   UID
Value = 21F61281-FB76-467F-A2CC-A666688BD9B5
-------------------------
Key =   X-RADICALE-NAME
Value = 21F61281-FB76-467F-A2CC-A666688BD9B5.ics
-------------------------
Key =   END
Value = VEVENT
-------------------------

对于简单的 ICAL 文件而不是 RegEx,插入行并使用 IndexOf(":") 可能就足够了。

查看是否已经存在 ICAL 解析器和相关问题 ical+C#。

尝试:

(?<key>[^:;]*)[:;](?<value>[^s]*)

C# 代码段:

Regex regex = new Regex(
@"(?<key>[^:;]*)[:;](?<value>[^s]*)",
RegexOptions.None
);

它接受除冒号或分号以外的任何字符的字符串作为键,然后使用除空格以外的任何其他字符作为值。

如果您想测试它或进行更改,请查看我博客上的正则表达式检查器:http://blog.stevekonves.com/2012/01/an-even-better-regex-tester/(需要 silverlight)

用几个例子运行它,看看它是否做你想要的。我得到了关于拆分或 IndexOf 的其他评论,但如果您期望分隔符是冒号或分号,那么正则表达式可能会更好。

string line = "LAST-MODIFIED:20120504T163940Z";
var p = Regex.Match(line, "(.*)?(:|;)(.*)$", RegexOptions.CultureInvariant | RegexOptions.IgnoreCase | RegexOptions.Singleline);
Console.WriteLine(p.Groups[0].Value);
Console.WriteLine(p.Groups[1].Value);
Console.WriteLine(p.Groups[2].Value);
Console.WriteLine(p.Groups[3].Value);

我个人会使用字符串。Split(':') 用于文件中的每一行。 如果您不想再次重新学习正则表达式,这也具有易于阅读和理解的好处!

相关内容

  • 没有找到相关文章

最新更新