在本教程的第一步html5lib
我看到了非常混乱的行为。
文档告诉:
import html5lib
f = open("mydocument.html")
doc = html5lib.parse(f)
这将以自定义的"简单树"格式返回树。
作为文件,我有一个普通的 html 文档。但就我而言,这是:
<None>
>>> doc is None
False
我相信这是不行的,但我不知道会发生什么。
编辑
如果我在打开的文件上调用read
方法,它将返回字符串形式的文件:
f = open("mydocument.html")
f.read()
# returns string with html
在 doc = html5lib.parse(f)
之后,f.read()
返回空字符串,就像文件已经被读取的文件一样。
-
<None>
并不意味着您的文档没有被解析,它只是意味着您的文档没有名称。doc.name = "test" print(doc)
它应该显示
<test>
-
parse
也可以将字符串作为参数,在这种情况下,它将为您加载文件,无需自己打开。 -
试试
print(doc.toxml())