从python 3中的HTML中筛选类似\\xe2\\x80\\x9e的表情包

所以我正在做一个项目，我需要用split and replace和re.sub之类的东西手动过滤社交媒体评论线程的HTML，否则我无法获得所需的信息(BeautifulSoup也会过滤掉重要信息(。最后，我只剩下这样的东西：

祝你好运，现在有一些真正的竞争\xf0\x9f\x98\x8f

感谢\xf0\x9f\x98\x82

我想办法去掉这些表情符号，或者用真正的表情符号代替它们，但一无所获。当表情符号看起来像U+1F600或像这样时，我确实找到了过滤掉它们的命令：牛仔帽脸：或像这样\U0001F606，我确实发现有人过滤了像这样的东西\xe2\x80\x99，但他只过滤分号和引号，而不是表情符号。我也找不到使用编码和解码的方法。

Short：我想要"；感谢\xf0\x9f\x98\x82"成为"；谢谢"；。

所以我刚开始接触网站，也许答案很简单，但正如我所说，我在互联网上没有发现任何关于这方面的信息。非常感谢您的帮助！

如果您只想在文本中使用ascii字符，则可以使用ascii 对文本进行编码和解码

text = """Best of luck to you now that there's some real competition xf0x9fx98x8f
Thanks xf0x9fx98x82"""
text = text.encode('ascii', 'ignore').decode()
>>> text
Best of luck to you now that there's some real competition 
Thanks

相关内容

最新更新

热门标签：