我有一个希伯来语文本文件,我想用Python 2.7标记它。但是在编码和解码方面总是存在问题。实际上,我需要将其标记化,以构建BagOfWords()
功能(例如,获取所有文本中出现超过100个的单词)。
因此,结果是列出了最常用的希伯来语单词。
我试图解码文本:
text = text.decode("cp862")
但输出看起来像:
u2229u2557u2510.......
我希望这个文件是希伯来语单词的列表,而不是ascii或utf-8字符。
我感谢你的帮助。
感谢
如果您的源文本确实包含希伯来语文本,则基于代码页的字符表示转换为通用UNICODE将允许您构建语言语料库分析<word>>内容本身与内容无关,而是取决于UI环境。
作为一个例子,可以编写和显示希伯来语文本,因为小部件可以正确处理适当的上下文(字符的视觉表示、出现顺序、流的方向):
aSequenceOfCHARs(ALEF、BET、MEM、NUN、AYIN、FINAL PE)显示为:
אבמנעף
因此,您的主要关注点——python中的语言语料库分析——可能与unicode文本元素一起工作,而与它们在表示层上的输出无关。