我有问题。仅使用python2。
r = self.session.get('http://..................')
print "CREATE BS"
print datetime.now()
soup = BeautifulSoup(r.content, 'html.parser')
print "CREATE BS END"
print datetime.now()
结果是:
CREATE BS
2017-09-01 11:45:22.822256
CREATE BS END
2017-09-01 11:46:56.992892
我不认为这是正常的:1.5分钟可以解析HTML。1周前,我对此源代码没有问题。任何了解BS4问题的人?
使用python3一切大约3秒。
我不相信的家伙,但是问题是在BS4源代码中进行大量调试后的编码:D我找到了解决方案。解决方案是:
soup = BeautifulSoup(r.content, 'lxml', from_encoding="utf8")
此from_encoding =" utf8"使所有魔术变得魔术。但这绝对是BS4中的错误。应该没有这个:)正如我说的python3没有问题。