编码有问题(\udbff、\udc13、\udc02、\udc00、\udc06(。我试着在网上查看了这个,并尝试了以下
print('udc13'.encode('utf8','surrogateescape'))
这会导致以下错误:
UnicodeEncodeError:"utf-8"编解码器无法对位置0中的字符"\udc13"进行编码:不允许使用代理
关于如何避免此范围的任何建议。我一直在寻找新的,所以用正则表达式来逃避每一个似乎都不是一个可持续的解决方案。
我已通过将"surrogateescape"替换为"反斜杠替换"来解决此问题。
我最终不得不逃离全范围的u"([udc00-udc69])|"
。我想我可能应该把它扩展到udcff或其他什么东西,让它更完整!