我需要将一些pdf文件转换为HTML。我下载了用于PHP的pdftohtml,但我不知道如何使用它
<?php
include 'pdf-to-html-master/src/Gufy/PdfToHtml.php';
$pdf = new GufyPdfToHtml;
$pdf->open('1400.pdf');
$pdf->generate();
?>
这将导致一个空白网页。
我需要修改什么?运行此脚本的正确代码是什么?
第一个选项是使用poppler utils
<?php
// if you are using composer, just use this
include 'vendor/autoload.php';
// if not, use this
include 'src/Gufy/PdfToHtml.php';
// initiate
$pdf = new GufyPdfToHtml;
// opening file
$pdf->open('file.pdf');
// set different output directory for generated html files
$pdf->setOutputDirectory('/your/absolute/directory/path');
// do this if you want to convert in the same directory as file.pdf
$pdf->generate();
// you think your generated files is annoying? simple do this to remove the whole files
$pdf->clearOutputDirectory();
?>
从这里下载库第二种选择可能是使用pdf.js
PDFJS.getDocument('helloworld.pdf')
我是这个包的维护者。程序包已更新。你已经用过最新的版本了吗?如果您使用的是Windows,请重新阅读文档。此外,请不要直接从github下载,而是使用composer。
include 'vendor/autoload.php';
use GufyPdfToHtmlPdf;
use PHPHtmlParserDom;
use DateTime;
公共函数parsepdf(Request$Request({
$pdf = new Pdf($request->file('csv_file'));
$html = $pdf->html();
$dom = new Dom;
$total_pages = $pdf->getPages();
if ($total_pages == 1) {
$html->goToPage(1);
$dom->load($html);
$paragraphs = $dom->find('p');
$paragraphs = collect($paragraphs);
foreach($paragraphs as $p){
$datestring = preg_replace('/xc2xa0/', ' ', trim($p->text));
echo $datestring;
}
}
以上代码用于在laravel 中将pdf转换为html
composer require gufy/pdftohtml-php:~2
Poppler Utils(如果你使用的是Ubuntu Distro,只需从apt(sudo apt-get安装poppler utils
我使用wkhtmltopdf,它工作正常。您可以从这里下载:http://wkhtmltopdf.org/downloads.html
我在Linux中安装了它,我这样使用它:
$url = "https://www.google.com";
$command = "/usr/bin/wkhtmltopdf --load-error-handling ignore --disable-smart-shrinking -T 5mm -B 5mm -L 2mm -R 2mm --page-size Letter --encoding utf-8 --quiet";
$filename = '[file path].pdf';
if (file_exists($filename)) {
unlink($filename);
}
$output = shell_exec($command . " $url " . $filename);
echo $output;
希望这能有所帮助。