我正试图像本文一样构建一个中文分词器。如果我理解正确的话,他们使用CRF++的2标签分割方法。我的问题是,如何将该论文中的标记转换(例如,T(-1)C(0)T(0))作为CRF++中的特征模板?例如,对于这样的训练数据:
共B
同M
創B
造M
美B<-当前单词
好M
的B
新B
世B
紀M
是否可能具有特征T(-1)C(0)T(0)->M/美/CRF++中的B?我尝试添加功能临时,如U01:%x[-1,1]/%x[0,0]/%x[0.1],但失败了。我也很困惑,既然B/I标签是我们想要在测试数据中标记的标签(例如原始中文句子),为什么可以在论文中使用标签作为特征?或者我误解了什么?
像T(-1)C(0)T(0)->M这样的特性/美/CRF++中的B可以表示为:
B01:%x[0,0]
请注意差异。B、 非U
如果使用U01:%x[0,0],则表示类似"美/B".
当我6年前第一次使用CRF++时,这也让我有点困惑。希望这能帮助到你。
我应该提到,在通用报告格式中,对特征的描述将包括标签。我的意思是,以下是0-1特征:当前字符为"美当前标签为"B"
CRF++中的"模板"(这是一种工具实现的CRF)所做的是在给定模板中定义的上下文的情况下枚举所有标签。
因此,在您的示例中,U01:%x[0,0]自动引入了两个功能:"U01:美_y=B"one_answers"U01:美_y=M"