我必须每年分析10年的数据和50多个文件。我从互联网上提取了数据,我所做的就是用正则表达式提取文本。文件的格式每年都不同,我甚至不确定各个年份的文件中的模式是否一致。2003年的格式似乎是
标题(.*)
[页眉(.*)
颜色编号编号字符串(\w+\s\d+\s\d++\s\d+\s.+)
颜色编号编号字符串
颜色编号编号字符串
颜色数字数字字符串]<===一块
标题
颜色编号编号字符串
颜色编号编号字符串
颜色编号编号字符串
颜色编号编号字符串
我的问题是,有没有一种方法可以用python编程来识别给定年份的文本文件中的模式?
一种模式识别,一种输出可能与一个数据块匹配的正则表达式的程序。
我将使用这些数据进行线性代数,但我希望这些数据易于访问并组织起来用于其他用途。
如果可能的话,也许你应该更简单地检查一下,当用空格(或制表符,或任何分隔每列的标记)分割时,每个数据块的每一行是否具有相同的长度。从那里你可以根据数据创建一个树。类似于:
{title: {
block: [
[color, number, number, number, string],
[color, number, number, number, string]
]
}
title:
...
}
如果数据太不规则,你可以尝试使用第三方库来(1)清理你从中抓取数据的html,或者(2)使用自然语言处理来标记/解析数据,但这似乎有些过头了。