小贝子编程

Python pdfminer PDF2HTML:转换为特殊字符的撇号

我正在使用Python中的PDFMiner软件包将PDF转换为HTML，但它将撇号转换为特殊字符。示例：

â€˜This is a text between apostrophesâ€™

应该是：

'This is a text between apostrophes'

有什么方法可以将特殊字符转换回撇号或更改编码之类的东西？我对角色编码并不熟悉。也许我可以选择转换为HTML的编码？

我假设引号是Unicode字符的左单引号标记（U 2018）和'右单引号标记'（U 2019）。在UTF-8中编码它们是：

'xe2x80x98This is a text between apostrophesxe2x80x99'

本文中的字节是：

'xc3xa2xe2x82xacxcbx9cThis is a text between apostrophesxc3xa2xe2x82xacxe2x84xa2'

这是每个报价的8个字节，这让我想知道字符串是否是多次编码的。我尝试了几种组合，例如：

>>> u'u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'xc3xa2xc2x80xc2x98'

不幸的是，我无法复制您获得的结果。

相关内容