我正在尝试使用Google Colab上的pdf2image模块将pdf转换为图像。我已经下载了poppler的最新版本,还安装了poppler-utils。在convert_from_path((中,我提到了poppler的bin目录的正确路径,但我仍然得到了FileNotFoundError和PDFInfoNotInstalled Error。
请参阅随附的屏幕截图以获得更多的清晰度。错误屏幕截图
AFAIK,Google colab正在运行Ubuntu操作系统,您可以通过运行uname -a
命令来发现这一点。
如果您构建poppler,pdf*二进制文件将安装在/usr/bin
中,pdf2image可以自动解析它们。
查找操作系统名称。
!uname -a;
Linux d9b9a62155f2 5.10.133+ #1 SMP Fri Aug 26 08:44:51 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
!cat requirements.txt
pdf2image
安装python依赖项
!pip install -r requirements.txt
安装一些用于构建poppler 的依赖项
!apt update
!apt-get install libnss3 libnss3-dev
!apt-get install libcairo2-dev libjpeg-dev libgif-dev
!apt-get install cmake libblkid-dev e2fslibs-dev libboost-all-dev libaudit-dev
下载并提取poppler源代码。
!wget https://poppler.freedesktop.org/poppler-21.09.0.tar.xz;
!tar -xvf poppler-21.09.0.tar.xz;
编译并安装poppler。
!mkdir -p poppler-21.09.0/build &&
cd poppler-21.09.0 &&
cmake -DCMAKE_BUILD_TYPE=Release
-DCMAKE_INSTALL_PREFIX=/usr
-DTESTDATADIR=$PWD/testfiles
-DENABLE_UNSTABLE_API_ABI_HEADERS=ON &&
make &&
make install
使用PDF文件
from pdf2image import convert_from_path, convert_from_bytes
images = convert_from_path('sample.pdf', poppler_path='/usr/bin/')
对于colab,请尝试安装以下命令并尝试convert_from_path
#Libraries to be installed
!sudo apt-get update
!apt-get install poppler-utils
那就试试pages = convert_from_path('filename', 500)
它应该起作用。
我推荐这个答案,因为它比其他答案更适合我。如果即使在安装库之后它也不起作用,那么尝试重新启动内核并运行代码convert_from_path。现在应该可以了。