Python pdfminer PDF2HTML:转换为特殊字符的撇号



我正在使用Python中的PDFMiner软件包将PDF转换为HTML,但它将撇号转换为特殊字符。示例:

‘This is a text between apostrophes’

应该是:

'This is a text between apostrophes'

有什么方法可以将特殊字符转换回撇号或更改编码之类的东西?我对角色编码并不熟悉。也许我可以选择转换为HTML的编码?

我假设引号是Unicode字符的左单引号标记(U 2018)和'右单引号标记'(U 2019)。在UTF-8中编码它们是:

'xe2x80x98This is a text between apostrophesxe2x80x99'

本文中的字节是:

'xc3xa2xe2x82xacxcbx9cThis is a text between apostrophesxc3xa2xe2x82xacxe2x84xa2'

这是每个报价的8个字节,这让我想知道字符串是否是多次编码的。我尝试了几种组合,例如:

>>> u'u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'xc3xa2xc2x80xc2x98'

不幸的是,我无法复制您获得的结果。

最新更新