在Google Colab上安装Poppler



我正在尝试使用Google Colab上的pdf2image模块将pdf转换为图像。我已经下载了poppler的最新版本,还安装了poppler-utils。在convert_from_path((中,我提到了poppler的bin目录的正确路径,但我仍然得到了FileNotFoundError和PDFInfoNotInstalled Error。

请参阅随附的屏幕截图以获得更多的清晰度。错误屏幕截图

AFAIK,Google colab正在运行Ubuntu操作系统,您可以通过运行uname -a命令来发现这一点。

如果您构建poppler,pdf*二进制文件将安装在/usr/bin中,pdf2image可以自动解析它们。

查找操作系统名称。

!uname -a;
Linux d9b9a62155f2 5.10.133+ #1 SMP Fri Aug 26 08:44:51 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
!cat requirements.txt
pdf2image

安装python依赖项

!pip install -r requirements.txt

安装一些用于构建poppler 的依赖项

!apt update
!apt-get install libnss3 libnss3-dev
!apt-get install libcairo2-dev libjpeg-dev libgif-dev
!apt-get install cmake libblkid-dev e2fslibs-dev libboost-all-dev libaudit-dev

下载并提取poppler源代码。

!wget https://poppler.freedesktop.org/poppler-21.09.0.tar.xz;
!tar -xvf poppler-21.09.0.tar.xz;

编译并安装poppler。

!mkdir -p poppler-21.09.0/build && 
cd poppler-21.09.0 && 
cmake  -DCMAKE_BUILD_TYPE=Release   
-DCMAKE_INSTALL_PREFIX=/usr  
-DTESTDATADIR=$PWD/testfiles 
-DENABLE_UNSTABLE_API_ABI_HEADERS=ON && 
make && 
make install

使用PDF文件

from pdf2image import convert_from_path, convert_from_bytes
images = convert_from_path('sample.pdf', poppler_path='/usr/bin/')

对于colab,请尝试安装以下命令并尝试convert_from_path

#Libraries to be installed
!sudo apt-get update
!apt-get install poppler-utils

那就试试pages = convert_from_path('filename', 500)

它应该起作用。

我推荐这个答案,因为它比其他答案更适合我。如果即使在安装库之后它也不起作用,那么尝试重新启动内核并运行代码convert_from_path。现在应该可以了。

相关内容

  • 没有找到相关文章