如何维护单词之间的链接?(html到文本)



我读了一个html文件,然后将Unicode内容写入另一个文件但是单词之间的间距丢失了,在html中有空间

如何修复它?

import codecs

def contains_nonascii(text):
    try:
        str(text).encode('ASCII')
        return False
    except UnicodeEncodeError:
        return True

这是HTML文件

http://www.mathrubhumi.com/index.php

''.join([text for text in texts if contains_nonascii(text)])
data =open("abc.html" ,'r' )
d2 = open("TETS2", 'w')
texts = data.read()
for text in texts:
    if contains_nonascii(text):
        text.replace(' ', ' ')
        d2.write(text)
data.close()
d2.close()

尝试以下代码更改...

 text.replace(' ', ' ')

 是HTML

中的非破坏空间

 浏览器告诉显示空间特征。如果它们不出现在您的html文件中,则您的函数的任何空格都不包含_nonascii()是不返回的(因此,替换永远不会发生)

尝试从条件...

中取出替换

最新更新