如何在CRF++中使用目标标签作为功能



我正试图像本文一样构建一个中文分词器。如果我理解正确的话,他们使用CRF++的2标签分割方法。我的问题是,如何将该论文中的标记转换(例如,T(-1)C(0)T(0))作为CRF++中的特征模板?例如,对于这样的训练数据:

共B

同M

創B

造M

美B<-当前单词

好M

的B

新B

世B

紀M

是否可能具有特征T(-1)C(0)T(0)->M/美/CRF++中的B?我尝试添加功能临时,如U01:%x[-1,1]/%x[0,0]/%x[0.1],但失败了。我也很困惑,既然B/I标签是我们想要在测试数据中标记的标签(例如原始中文句子),为什么可以在论文中使用标签作为特征?或者我误解了什么?

像T(-1)C(0)T(0)->M这样的特性/美/CRF++中的B可以表示为:

B01:%x[0,0]

请注意差异。B、 非U

如果使用U01:%x[0,0],则表示类似"美/B".

当我6年前第一次使用CRF++时,这也让我有点困惑。希望这能帮助到你。


我应该提到,在通用报告格式中,对特征的描述将包括标签。我的意思是,以下是0-1特征:当前字符为"美当前标签为"B"

CRF++中的"模板"(这是一种工具实现的CRF)所做的是在给定模板中定义的上下文的情况下枚举所有标签。

因此,在您的示例中,U01:%x[0,0]自动引入了两个功能:"U01:美_y=B"one_answers"U01:美_y=M"

最新更新