新年快乐!
我想看看是否有人成功地从一个网站的.txt文件中包含的多个url下载了嵌入的pdf文件?
例如;
我尝试了wget-I urlist.txt的几种组合(它完美地下载了所有的html文件(;然而,它并不能抓取每个html文件的嵌入式.pdf?xxxxx<----pdf末尾的鼻涕虫?*
这个障碍的确切例子如下:
这个数据集我已经把所有2页的链接放进了一个url.txt:
https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/
此数据集中的1个示例URL:
https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html
嵌入的pdf链接如下:
https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549
pdf文件实际上是";2014-70147-9.pdf?ts=1419887549"。pdf?ts=xxxxxxxxxx
每一个都是不同的。
URL列表包含795个链接。有人能成功地下载我的urls.txt中的每一个.html,同时下载.pdfx_xxxxxxxxxxxxx文件和.html文件吗?
谢谢!
~布兰登
尝试使用以下方法:
wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt
有关选项--level
、--recursive
、--span-hosts
、--accept-regex
和--input-file
的详细信息,请参阅wget文档,网址为https://www.gnu.org/software/wget/manual/html_node/index.html.
您还需要了解正则表达式是如何工作的。您可以从开始https://www.grymoire.com/Unix/Regular.html
您正在寻找一个web scraper。如果你曾经使用过任何规则,要小心不要违反任何规则。
您还可以使用bash脚本中的一些字符串操作来处理通过wget
接收到的内容。