我正在尝试使用codecs.open打开一个在线txt文件。我现在的代码是:
url = r'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'
soup = BeautifulSoup(codecs.open(url, 'r',encoding='utf-8'), "lxml")
但是,Python不断提醒OSError:
OSError: [Errno 22] Invalid argument: 'https://www.sec.gov/Archives/edgar/data/20/0000893220-96-000500.txt'
我试图用"\"替换"/"。它仍然不起作用。 有什么办法可以解决吗? 由于我有超过数千个链接要打开,所以我不太想将在线文本文件下载到我的本地驱动器中。
如果有人能在这里提供帮助,我将不胜感激。
谢谢!
你想的就是这样吗?
`from urllib.request import urlopen
url = urlopen('https://www.sec.gov/Archives/edgar/data/20/0000893220-96- 000500.txt')
html = url.read().decode('utf-8')
file = open('yourfile.txt', 'r')
file.read(html)
file.close`