用python从文本文件中读取一些阿拉伯语遇到麻烦



我想为我的学校做一个项目,我需要从文本文件中获得阿拉伯语句子,但它不检测与拉丁单词一起工作的文本代码。

尝试更改编码,但仍然不工作。这是我的代码

from PIL import Image
from pytesseract import image_to_string
image=Image.open('gazete2.png')
text=image_to_string(image,lang='urd')
print(text)

file1 = open('deneme.txt','r+', encoding="utf-16")
lines = file1.readlines()
for row in lines:
if row.find(text) != -1:
print((row))

为了使用Python从文件中读取阿拉伯语文本,您需要确保该文件以Unicode格式编码,例如UTF-8,并且您的Python代码能够处理Unicode字符。您可以使用open()和read()方法将文件的内容读入字符串变量,如下所示:

with open('filename.txt', 'r', encoding='utf-8') as f:
arabic_text = f.read()

一旦将文本读入字符串变量,就可以使用Python中的字符串方法和操作来根据需要操作文本。例如,您可以使用encode()方法以不同的格式对文本进行编码,或者您可以使用字符串切片和索引来提取文本的特定部分。

还值得注意的是,阿拉伯语文本在屏幕上的显示方式可能取决于所使用的字体。如果您在正确显示文本时遇到问题,您可能需要尝试使用不同的字体,以找到支持您要显示的阿拉伯字符的字体。

最新更新