与环弗雷克斯的组合字符序列



我有一个包含以下句子的文档。"Mon frère aièné"我通过QTextCursor获取每个字符。

from PySide6 import QtWidgets, QtGui
import os, sys, PySide6
dirname = os.path.dirname(PySide6.__file__)
plugin_path = os.path.join(dirname, 'plugins', 'platforms')
os.environ['QT_QPA_PLATFORM_PLUGIN_PATH'] = plugin_path
doc = QtGui.QTextDocument()
step = 0
doc.setPlainText("Mon frère aîné")
for num, sen in enumerate("Mon frère aîné"):
tc = QtGui.QTextCursor(doc)
can_move = tc.movePosition(tc.NextCharacter, tc.MoveAnchor, step+1)
if can_move:
tc.movePosition(tc.PreviousCharacter, tc.KeepAnchor, 1)
print(tc.selectedText(), num, sen)
step += 1

结果:M 0 M

o 1 o

n 2 n

3

f4 f

r 5 r

è6è

r 7 r

e 8 e

9

a 10 a

我(这里(

n 12õ(此处(

é13 n(此处(

QTextCursor可以获得两个字符,类似于unicode"的组合;iâ"作为一个字符,另一方面,python序列区分了两者之间的"i〃;以及"^&";。

我怎么能把两者搞成巧合呢?

字形î在Unicode中可以用两种方式表示:

U+00EE - LATIN SMALL LETTER I WITH CIRCUMFLEX

或:

U+0069 - LATIN SMALL LETTER I
U+0302 - COMBINING CIRCUMFLEX ACCENT

CCD_ 2似乎是Unicode字形感知的;感知性格";一次。有关详细信息,请参阅Unicode文本分割。

在这种情况下,Unicode规范化可以在两者之间转换,并且可能是您所需要的:

import unicodedata as ud
s1 = 'u00ee'
s2 = 'u0069u0302'
print(s1,s2)           # They look the same
print(len(s1),len(s2))
print(s1 == s2)
print(s1 == ud.normalize('NFC',s2))  # combined format
print(ud.normalize('NFD',s1) == s2)  # decomposed format

输出:

î î
1 2
False
True
True

在您的示例中,一些重音字符被组合,其中一个被分解:

text = "Mon frère aîné"
print(len(text),text,ascii(text))
text = ud.normalize('NFC',text)
print(len(text),text,ascii(text))
text = ud.normalize('NFD',text)
print(len(text),text,ascii(text))

输出:

15 Mon frère aîné 'Mon frxe8re aiu0302nxe9'       # mix
14 Mon frère aîné 'Mon frxe8re axeenxe9'          # shorter, all combined
17 Mon frère aîné 'Mon freu0300re aiu0302neu0301' # longer, all decomposed

QTextCursor

最新更新