UTF-8 编码问题(\udbff、\udc13、\udc02、\udc00、\udc06),其中转义代理项解决方案不起作用



编码有问题(\udbff、\udc13、\udc02、\udc00、\udc06(。我试着在网上查看了这个,并尝试了以下

print('udc13'.encode('utf8','surrogateescape'))

这会导致以下错误:

UnicodeEncodeError:"utf-8"编解码器无法对位置0中的字符"\udc13"进行编码:不允许使用代理

关于如何避免此范围的任何建议。我一直在寻找新的,所以用正则表达式来逃避每一个似乎都不是一个可持续的解决方案。

我已通过将"surrogateescape"替换为"反斜杠替换"来解决此问题。

我最终不得不逃离全范围的u"([udc00-udc69])|"。我想我可能应该把它扩展到udcff或其他什么东西,让它更完整!

最新更新