小贝子编程

WGET - 如何从文本文件 URL 列表中下载具有下载按钮的嵌入式 PDF？可能吗？

本文关键字：按钮有下载嵌入式 PDF 下载文本文件列表 URL WGET linux pdf web-scraping wget
更新时间 : 2023-09-21
英文 : WGET - how to download embedded pdf's that have a download button from a text file URL list? Is it possible?

新年快乐！

我想看看是否有人成功地从一个网站的.txt文件中包含的多个url下载了嵌入的pdf文件？

例如；

我尝试了wget-I urlist.txt的几种组合(它完美地下载了所有的html文件(；然而，它并不能抓取每个html文件的嵌入式.pdf？xxxxx<----pdf末尾的鼻涕虫？*

这个障碍的确切例子如下：

这个数据集我已经把所有2页的链接放进了一个url.txt：

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/

此数据集中的1个示例URL：

https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/70147-9.html

嵌入的pdf链接如下：

https://cases.justia.com/washington/court-of-appeals-division-i/2014-70147-9.pdf?ts=1419887549

pdf文件实际上是"；2014-70147-9.pdf？ts＝1419887549"。pdf？ts=xxxxxxxxxx

每一个都是不同的。

URL列表包含795个链接。有人能成功地下载我的urls.txt中的每一个.html，同时下载.pdfx_xxxxxxxxxxxxx文件和.html文件吗？

谢谢！

~布兰登

尝试使用以下方法：

wget --level 1 --recursive --span-hosts --accept-regex 'https://law.justia.com/cases/washington/court-of-appeals-division-i/2014/.*html|https://cases.justia.com/washington/court-of-appeals-division-i/.*.pdf.*' --input-file=urllist.txt

有关选项--level、--recursive、--span-hosts、--accept-regex和--input-file的详细信息，请参阅wget文档，网址为https://www.gnu.org/software/wget/manual/html_node/index.html.

您还需要了解正则表达式是如何工作的。您可以从开始https://www.grymoire.com/Unix/Regular.html

您正在寻找一个web scraper。如果你曾经使用过任何规则，要小心不要违反任何规则。

您还可以使用bash脚本中的一些字符串操作来处理通过wget接收到的内容。

相关内容

最新更新