删除行，如果字符无效

i有一个2GB .TXT文件，该文件具有超过6000万行的MD5哈希值。由于"算术错误"，我一直在将其导入一块软件时遇到问题，因此，在此之前，我删除了任何不包含32个字符的行（以表示MD5 Hash长度）。尽管如此，问题仍然存在。

手动审查文档后，有些行确实不包含有效的哈希值。因此，我希望阅读每一行，如果它包含0-9和A-F之间的值，我希望删除该行。

我预计可能需要正则是不确定的。

我只是在进行一些有关如何实现此字符串验证的指针？如上所述，每行应仅包含0-9和A-F之间的字符（六个化学）。

预先感谢

import re
import sys
import fileinput

md5_checker = re.compile("^[a-fA-F0-9]{32}$")
for line in fileinput.input():
    if md5_checker.match(line):
        sys.stdout.write(line)
    else:
        sys.stderr.write("INVALID: %s" % line)

用法：

$ cat testfile.txt 
0cc175b9c0f1b6a831c399e269772661
92eb5ffee6ae2fec3ad71c777531578f
asdf
0cc175b9c0f1b6a831c399e269772661
92eb5ffee6ae2fec3ad71c777531578f
$ python ~/Desktop/md5_checker.py testfile.txt > cleaned.txt
INVALID: asdf
$ cat cleaned.txt 
0cc175b9c0f1b6a831c399e269772661
92eb5ffee6ae2fec3ad71c777531578f
0cc175b9c0f1b6a831c399e269772661
92eb5ffee6ae2fec3ad71c777531578f

警告：不要读取并写入同一文件（md5_checker testfile.txt > testfile.txt将擦除文件！）

可能的正则是，当然也可能与其他事情匹配。但是，它确实仅检查字符a-f和数字0-9。

r'^[A-Fd]+$'

您可以轻松地添加{32}以还可以检查长度，但是您说您已经清洁了任何非32个长度线，这无关紧要（对于新手的regexes，只有不必要地掩盖了事物）。作为参考，它看起来像这样：

r'^[A-Fd]{32}+$'

您只需读取文件，按行排行并在正则匹配时匹配。如果是匹配，请将其添加到输出文件中。

有关Python RE模块的更多信息，请查看此信息http://docs.python.org/library/re.html

使用re.match与适当的正则表达式使用。

import re
r = re.compile(r'^[a-fA-F0-9]{32}$')
with open("hashes") as i, open("hashes_cleaned", "w") as o:
    for line in i:
        # Cheap check for 32 chars, first.
        if len(line.strip()) == 32 and r.match(line.strip()):
            o.write(line)

示例

输入：

% cat hashes
c2cf0d7b2d3c5cd91a1314a2285ce53e
12524f7af3a5dad467264683d0ec6206
746518a1c63294d367c23cab37f4166c
foo
4d6deee14efe78180c698679e16f7342
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
eb9a25b6b525ae665115b43a259d2355

输出：

% cat hashes_cleaned 
c2cf0d7b2d3c5cd91a1314a2285ce53e
12524f7af3a5dad467264683d0ec6206
746518a1c63294d367c23cab37f4166c
4d6deee14efe78180c698679e16f7342
eb9a25b6b525ae665115b43a259d2355

您可以使用RE来解析该行。
尝试此代码：

import re
match = re.match('[0-9A-F]{32}', line)
if match:
    #valid line
else:
    #invalid line

不使用Regex

的另一个可能的解决方案

import string
#create a set of all possible hex digits.
#in case you want only upper case hex letters, 
#convert to upper
hexchars = set(string.hexdigits.upper())
#iterate through your file
for line in somefile:
    #See if there is any chars apart from the hex char set
    if set(line) - set(hexchars):
        print "Some Invalid Message"
    else:
        #Do something useful

grep '[A-Fa-fd]{32}' filename.txt >newfilename.txt if you have access to terminal.

相关内容

最新更新

热门标签：