从pdf中提取阿拉伯语文本(PdfToText)时会出现奇怪的单词



从pdf中提取阿拉伯语文本时遇到问题。
我使用 PdfToText 库
文本出现在此图中 (΋ΎϬϧϟ΍υΫΣϟ΍ΦϳέΎΗ ΏϟΎρϟ΍ϡϳΩϘΗΝΫϭϣϧ ΩϳϘϟ΍ϡϗέ(我该如何解决?我试过了

<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
但这并没有解决我的问题

英文字母是基本ASCII字符集的一部分,因此输出通常没有任何问题,但是使用各种口音甚至不同字母的任何其他语言,即。阿拉伯语、阿兹布卡语、希腊语等使用基本集合中的字母。

确保所有三个源都使用相同的编码:

  1. 生成输出的所有 PHP 脚本
  2. HTML 编码元标记
  3. 输出文件以及

广告 1
检查编辑器如何将 PHP 脚本保存到文件系统。如何设置它的方式因每个编辑器而异

广告 2使用 HTML 元标记<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

广告3定义要使用的编码UTF-8例如:pdftotext -enc UTF-8 your.pdf 。根据文档,PdfToText 类生成 UTF8 编码的文本。

相关内容

  • 没有找到相关文章

最新更新