Python中的希伯来语文本



我有一个希伯来语文本文件,我想用Python 2.7标记它。但是在编码和解码方面总是存在问题。实际上,我需要将其标记化,以构建BagOfWords()功能(例如,获取所有文本中出现超过100个的单词)。

因此,结果是列出了最常用的希伯来语单词。

我试图解码文本:

text = text.decode("cp862")

但输出看起来像:

u2229u2557u2510.......

我希望这个文件是希伯来语单词的列表,而不是ascii或utf-8字符。

我感谢你的帮助。

感谢

如果您的源文本确实包含希伯来语文本,则基于代码页的字符表示转换为通用UNICODE将允许您构建语言语料库分析<word>>内容本身与内容无关,而是取决于UI环境。

作为一个例子,可以编写和显示希伯来语文本,因为小部件可以正确处理适当的上下文(字符的视觉表示、出现顺序、流的方向):

aSequenceOfCHARs(ALEF、BET、MEM、NUN、AYIN、FINAL PE)显示为:

אבמנעף

因此,您的主要关注点——python中的语言语料库分析——可能与unicode文本元素一起工作,而与它们在表示层上的输出无关。

最新更新