从python 3中的HTML中筛选类似\\xe2\\x80\\x9e的表情包



所以我正在做一个项目,我需要用split and replace和re.sub之类的东西手动过滤社交媒体评论线程的HTML,否则我无法获得所需的信息(BeautifulSoup也会过滤掉重要信息(。最后,我只剩下这样的东西:

祝你好运,现在有一些真正的竞争\xf0\x9f\x98\x8f

感谢\xf0\x9f\x98\x82

我想办法去掉这些表情符号,或者用真正的表情符号代替它们,但一无所获。当表情符号看起来像U+1F600或像这样时,我确实找到了过滤掉它们的命令:牛仔帽脸:或像这样\U0001F606,我确实发现有人过滤了像这样的东西\xe2\x80\x99,但他只过滤分号和引号,而不是表情符号。我也找不到使用编码和解码的方法。

Short:我想要";感谢\xf0\x9f\x98\x82"成为";谢谢";。

所以我刚开始接触网站,也许答案很简单,但正如我所说,我在互联网上没有发现任何关于这方面的信息。非常感谢您的帮助!

如果您只想在文本中使用ascii字符,则可以使用ascii 对文本进行编码和解码

text = """Best of luck to you now that there's some real competition xf0x9fx98x8f
Thanks xf0x9fx98x82"""
text = text.encode('ascii', 'ignore').decode()
>>> text
Best of luck to you now that there's some real competition 
Thanks

最新更新