使用urllib2从html中提取数据显示错误格式不正确(无效标记):第5行,第62列



我有一个代码可以将货币从印度卢比转换为美元,我使用谷歌货币转换器api,

使用的代码:

url="https://www.google.com/finance/converter?a=%s&from=%s&to=%s"(total_incl_tax,'INR','USD')
file = urllib2.urlopen(url)
data = file.read()
print "dataaaaaaaaaaaaaaa",data
file.close()
dom = parseString(data)
xmlTag = dom.getElementsByTagName('span')[0].toxml()
xmlData=xmlTag.replace('<span>','').replace('</span>','')
print "dommmmmmmmmmmmmmmmmmmmmmmmmmmmmm",xmlData

当我使用它时,我得到了以下格式不正确的错误(无效标记):第5行,第62列。我如何从html中获取数据,并且数据在span标记之间。请帮忙?

您在尝试解析字符串时出错:

dom = parseString(data)

这是因为有问题的URL是无效的XML。然而,对于有效的XML,解析器可以按预期工作。

专业提示:不要使用urllib2xml.dom.minidom,而是使用请求和美化组。

最新更新