在两个文件中查找模式



我必须每年分析10年的数据和50多个文件。我从互联网上提取了数据,我所做的就是用正则表达式提取文本。文件的格式每年都不同,我甚至不确定各个年份的文件中的模式是否一致。2003年的格式似乎是

标题(.*)

[页眉(.*)

颜色编号编号字符串(\w+\s\d+\s\d++\s\d+\s.+)

颜色编号编号字符串

颜色编号编号字符串

颜色数字数字字符串]<===一块

标题

颜色编号编号字符串

颜色编号编号字符串

颜色编号编号字符串

颜色编号编号字符串

我的问题是,有没有一种方法可以用python编程来识别给定年份的文本文件中的模式?

一种模式识别,一种输出可能与一个数据块匹配的正则表达式的程序。

我将使用这些数据进行线性代数,但我希望这些数据易于访问并组织起来用于其他用途。

如果可能的话,也许你应该更简单地检查一下,当用空格(或制表符,或任何分隔每列的标记)分割时,每个数据块的每一行是否具有相同的长度。从那里你可以根据数据创建一个树。类似于:

{title: {
    block: [
        [color, number, number, number, string],
        [color, number, number, number, string]
    ]
 }
 title:
     ...
}   

如果数据太不规则,你可以尝试使用第三方库来(1)清理你从中抓取数据的html,或者(2)使用自然语言处理来标记/解析数据,但这似乎有些过头了。

相关内容

  • 没有找到相关文章

最新更新