Python中的希伯来语文本

我有一个希伯来语文本文件，我想用Python 2.7标记它。但是在编码和解码方面总是存在问题。实际上，我需要将其标记化，以构建BagOfWords()功能（例如，获取所有文本中出现超过100个的单词）。

因此，结果是列出了最常用的希伯来语单词。

我试图解码文本：

text = text.decode("cp862")

但输出看起来像：

u2229u2557u2510.......

我希望这个文件是希伯来语单词的列表，而不是ascii或utf-8字符。

我感谢你的帮助。

感谢

如果您的源文本确实包含希伯来语文本，则基于代码页的字符表示转换为通用UNICODE将允许您构建语言语料库分析<word>>内容本身与内容无关，而是取决于UI环境。

作为一个例子，可以编写和显示希伯来语文本，因为小部件可以正确处理适当的上下文（字符的视觉表示、出现顺序、流的方向）：

aSequenceOfCHARs（ALEF、BET、MEM、NUN、AYIN、FINAL PE）显示为：

אבמנעף

因此，您的主要关注点——python中的语言语料库分析——可能与unicode文本元素一起工作，而与它们在表示层上的输出无关。