小贝子编程

使用urllib2从html中提取数据显示错误格式不正确(无效标记):第5行，第62列

本文关键字：无效 5行 62列不正确 html urllib2 提取数据格式错误显示 html python-2.7 web-scraping
更新时间 : 2023-08-27
英文 : Extract data from html using urllib2 shows error not well-formed (invalid token): line 5, column 62

我有一个代码可以将货币从印度卢比转换为美元，我使用谷歌货币转换器api，

使用的代码：

url="https://www.google.com/finance/converter?a=%s&from=%s&to=%s"(total_incl_tax,'INR','USD')
file = urllib2.urlopen(url)
data = file.read()
print "dataaaaaaaaaaaaaaa",data
file.close()
dom = parseString(data)
xmlTag = dom.getElementsByTagName('span')[0].toxml()
xmlData=xmlTag.replace('<span>','').replace('</span>','')
print "dommmmmmmmmmmmmmmmmmmmmmmmmmmmmm",xmlData

当我使用它时，我得到了以下格式不正确的错误（无效标记）：第5行，第62列。我如何从html中获取数据，并且数据在span标记之间。请帮忙？

您在尝试解析字符串时出错：

dom = parseString(data)

这是因为有问题的URL是无效的XML。然而，对于有效的XML，解析器可以按预期工作。

专业提示：不要使用urllib2或xml.dom.minidom，而是使用请求和美化组。

使用urllib2从html中提取数据显示错误格式不正确(无效标记):第5行，第62列

相关内容

最新更新

热门标签：