中取出替换
我读了一个html文件,然后将Unicode内容写入另一个文件但是单词之间的间距丢失了,在html中有空间
如何修复它?
import codecs
def contains_nonascii(text):
try:
str(text).encode('ASCII')
return False
except UnicodeEncodeError:
return True
这是HTML文件
http://www.mathrubhumi.com/index.php
''.join([text for text in texts if contains_nonascii(text)])
data =open("abc.html" ,'r' )
d2 = open("TETS2", 'w')
texts = data.read()
for text in texts:
if contains_nonascii(text):
text.replace(' ', ' ')
d2.write(text)
data.close()
d2.close()
尝试以下代码更改...
text.replace(' ', ' ')
 是HTML
中的非破坏空间 浏览器告诉显示空间特征。如果它们不出现在您的html文件中,则您的函数的任何空格都不包含_nonascii()是不返回的(因此,替换永远不会发生)
尝试从条件...