如何从PDF文件中提取附件?我正在阅读的PDF附带了一个XML文件,我找不到获取它们的方法。
我最终安装了poppler utils,该utils具有命令pdfdetach
通过使用核心PHP:
#$file_path = absolute file path
#$attachment_extension = attachment extension eg. xml
$content = @file_get_contents($file_path, FILE_BINARY);
preg_match_all('/Type/Filespec/UF((.*?))>>/', $content, $match);
$file_names = $match[1];
preg_match_all("#$attachment_extension>>stream(.*)endstream#ismU", $content, $attachments);
$attachments = $attachments[1];
for($i=0; $i < count($attachments); $i++){
$final_attrs[$file_names[$i]] = @gzuncompress(trim($attachments[$i]));
}
#$final_attrs this is the array of files.