我正在尝试通过MHT文件打开并处理并刮掉经销商位置数据。每当我遇到HTML的"棘手"格式的网站时,我总是会遇到相同的问题。转:
a href =" http://www.google.com/maps?s=123 Main St"
进入
a href="http://www.=
google.com/maps?=12=
3 main st"
到目前为止,我尝试过的任何事情都没有努力将其恢复原始自我。我仍然无法取消地址。
a = a.replace(r'=n', '')
或
a = a.replace(r'n', '')
甚至尝试过,
a = a.replace(r'[0D]', '')
刚尝试,
a = a.sub(r'n', '')
我所得到的只是错误'str对象没有属性'sub',并且在代码中的" r"中,它都会做同样的事情。
到目前为止,还没有任何效果。我如何替换每当我去查看MHT文件时总是弹出的= n。
我正在使用
a = open('Filename.mht', 'r')
b = a.read()
a.close()
做str = str.replace("n","")
为我工作。因此,如果您这样做
string = '''a href="http://www.=
google.com/maps?=12=
3 main st'''
string = string.replace("n", "")
print(string)
'a href="http://www.=google.com/maps?=12=3 main st'
应该有效的这篇文章可能会有所帮助,并解释原因。
编辑:刚刚测试,它确实有效。
我想我发现了工作。.read()引起问题,不确定为什么。我将其更改为readlines(),然后将字符串重新组合在一起,现在效果很好,一个小例外,必须讨厌"。当您试图重新定义...至少我认为这是导致程序现在挂断的原因。