在MHT文件中替换 n



我正在尝试通过MHT文件打开并处理并刮掉经销商位置数据。每当我遇到HTML的"棘手"格式的网站时,我总是会遇到相同的问题。转:

a href =" http://www.google.com/maps?s=123 Main St"

进入

a href="http://www.=
google.com/maps?=12=
 3 main st"

到目前为止,我尝试过的任何事情都没有努力将其恢复原始自我。我仍然无法取消地址。

a = a.replace(r'=n', '')

a = a.replace(r'n', '')

甚至尝试过,

a = a.replace(r'[0D]', '')

刚尝试,

a = a.sub(r'n', '')

我所得到的只是错误'str对象没有属性'sub',并且在代码中的" r"中,它都会做同样的事情。

到目前为止,还没有任何效果。我如何替换每当我去查看MHT文件时总是弹出的= n。

我正在使用

a = open('Filename.mht', 'r')
b = a.read()
a.close()

str = str.replace("n","")为我工作。因此,如果您这样做

string = '''a href="http://www.=
google.com/maps?=12=
3 main st''' 
string = string.replace("n", "")
print(string)
'a href="http://www.=google.com/maps?=12=3 main st'

应该有效的这篇文章可能会有所帮助,并解释原因。

编辑:刚刚测试,它确实有效。

我想我发现了工作。.read()引起问题,不确定为什么。我将其更改为readlines(),然后将字符串重新组合在一起,现在效果很好,一个小例外,必须讨厌"。当您试图重新定义...至少我认为这是导致程序现在挂断的原因。

最新更新