我有一个包含HTMLS的CSV。
我需要从每个HTML中提取所有链接,其中CSV
好吧,我认为这会做你想要的。
import csv
import urllib2
import re
urls = csv.reader(open('C:\your_path_here\download_data.csv'))
for url in urls:
response = urllib2.urlopen(url[0])
html = response.read()
print re.findall('msApplication-PackageFamilyName',html)
#################### In the CSV file:
http://www.cnn.com
http://www.yahoo.com
http://www.cbc.ca