我如何操纵与Python进行Webscrap的URL



我想将我的数组推文吐出库存股票符号列表(AAPL,CDTI,OVAS等(,将其分别列入URL https://finviz.com/quote.ashx?t=mbot在此URL中的最后一部分,在这种情况下,mbot是页面所查看的库存。我如何操纵URL,以便可以用我的数组 Tweets

从每个表中刮掉每个表格
    import csv
    import urllib.request
    from bs4 import BeautifulSoup
    twiturl = "https://twitter.com/ACInvestorBlog"
    twitpage = urllib.request.urlopen(twiturl)
    soup = BeautifulSoup(twitpage,"html.parser")
    print(soup.title.text)
    tweets = [i.text for i in soup.select('a.twitter-cashtag.pretty-link.js-nav b')]
    print(tweets)
    furl = "https://finviz.com/quote.ashx?t=mbot"
    fpage = urllib.request.urlopen(furl)
    fsoup = BeautifulSoup(fpage, 'html.parser')
    with open('output.csv', 'wt') as file:
        writer = csv.writer(file)
# write header row
writer.writerow(map(lambda e : e.text, fsoup.find_all('td', {'class':'snapshot-td2-cp'})))
# write body row
writer.writerow(map(lambda e : e.text, fsoup.find_all('td', {'class':'snapshot-td2'})))

我不确定我是否完全了解您想要的内容。您可以从https://twitter.com/acinvestorblog获得想要的股票符号。基于此高音扬声器帐户,您会生成一个股票符号列表。

为什么没有:

url_base = "https://finviz.com/quote.ashx?t="
url_list = [url_base + tckr for tckr in tweets]

然后,您为url_list中每个URL的请求进行循环。这接近您想要实现的目标吗?

最新更新