因此,使用我的linux终端,我可以运行一个命令从网站下载所有pdf
wget -A pdf -m -p -E -k -K -np http://site/path/
但我想把这个过程自动化。例如,对多个url运行该命令,然后稍后使用Python/Jupyter笔记本处理下载的文件。Python中的wget
库不同,它不允许我在Linux机器上使用可以在wget中使用的相同选项/参数。那么,如何使用Python实现同样的功能呢?
您可以直接使用操作系统库,使其看起来像这个
import os
os.system('wget -A pdf -m -p -E -k -K -np http://site/path/')
这样,你只需要向系统传递一个命令。
您不需要Python。
#!/bin/bash
for url in "http://site/path/" "https://example.com/another"
do
wget -A pdf -m -p -E -k -K -np "$url"
done