WGET - 如何从文本文件 URL 列表中下载具有下载按钮的嵌入式 PDF?可能吗?



新年快乐!

我想看看是否有人成功地从一个网站的.txt文件中包含的多个url下载了嵌入的pdf文件?

例如;

我尝试了wget-I urlist.txt的几种组合(它完美地下载了所有的html文件(;然而,它并不能抓取每个html文件的嵌入式.pdf?xxxxx<----pdf末尾的鼻涕虫?*

这个障碍的确切例子如下:

这个数据集我已经把所有2页的链接放进了一个url.txt:

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/

此数据集中的1个示例URL:

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html

嵌入的pdf链接如下:

https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549

pdf文件实际上是";2014-70147-9.pdf?ts=1419887549"。pdf?ts=xxxxxxxxxx

每一个都是不同的。

URL列表包含795个链接。有人能成功地下载我的urls.txt中的每一个.html,同时下载.pdfx_xxxxxxxxxxxxx文件和.html文件吗?

谢谢!

~布兰登

尝试使用以下方法:

wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt

有关选项--level--recursive--span-hosts--accept-regex--input-file的详细信息,请参阅wget文档,网址为https://www.gnu.org/software/wget/manual/html_node/index.html.

您还需要了解正则表达式是如何工作的。您可以从开始https://www.grymoire.com/Unix/Regular.html

您正在寻找一个web scraper。如果你曾经使用过任何规则,要小心不要违反任何规则。

您还可以使用bash脚本中的一些字符串操作来处理通过wget接收到的内容。

最新更新