使用IBMWatsonNLU和IBMWatson-NLC服务,用相同的训练集组装分类器会产生不同的结果



每个积极使用IBM Watson的自然语言分类器服务的人在使用API时都看到了以下消息:

"2021年8月9日,IBM宣布弃用自然语言分类器服务。自2022年8月8日起,该服务将不再提供。截至2021年9月9日,您将无法创建新实例。现有实例将在2022年8月8日之前得到支持。在该日期仍然存在的任何实例都将被删除。有关更多信息,请参阅IBM Cloud Docs">

IBM积极推动将NLC模型迁移到IBM的自然语言理解服务。今天,我已经将我的第一个分类模型从自然语言分类器迁移到了自然语言理解。由于我没有深入研究这两项服务的技术背景,所以我想比较这两种服务的产出。为了做到这一点,我遵循了IBM提供的迁移指南(NLC->NLU迁移指南)。为了在NLU中重新创建NLC分类器,我下载了用于创建NLC服务中构建的初始分类器的完整训练数据集。因此,用于训练NLC和NLU分类器的数据集是相同的。在NLU中重新创建分类器是直接的,分类器训练所花费的时间与在NLC中大致相同。

为了比较性能,我组装了一组测试短语,这些短语在NLC或NLU服务中都没有用于训练目的。测试集包含100个通过NLC和NLU分类器的短语。令我大为惊讶的是,这些差异是巨大的。在100个结果中,有18个结果不同(置信度值的差异大于0.30),或者在接受置信度值0.2的差异时,有37个结果不同。总之,分析结果的差异是巨大的。

在我看来,这种差异太大了,不能毫不犹豫地盲目地将所有NLC模型迁移到NLU。到目前为止,我获得的结果证明了SME使用手动管理步骤进行进一步调查的合理性,以验证产生的分析结果。我对此不太高兴。我想知道是否有更多的用户看到了这个问题和/或有同样的看法。也许有人可以揭示NLC和NLU服务之间分析结果的差异。以及如何缩小使用NLC和NLU服务获得的分析结果之间的差异。

请在下面找到比较分析结果的摘录:

可比性
标题 NLC NLU
"微生物挥发性有机化合物(VOC)驱动的含磷土壤矿物的溶解和表面改性用于植物营养:基于VOC的植物-微生物通信的间接途径"> 0,01 0,05 可比
"通过回收生物活性化合物对猕猴桃农业废弃物和工业副产品进行价值化及其作为食品添加剂的应用:循环经济模型"> 0,01 0,05 可比
"通过化学计量方法定量揭示栽培海拔对小麦挥发物指纹的影响"> 0,70 0,39 不同
"鉴定挥发性生物标志物以高通量传感储存马铃薯中的软腐病和腐霉渗漏病"> 0,01 0,33 不同
"电解水对Piedmontese Steak Tartare"的微生物破坏剖面的影响 0,08 0,50 不同
"影响咖啡挥发物的因素综述:从种子到杯子 0,67 0,90 不同
"腰果无性系花序梗挥发性特征的化学计量分析及其与感官属性的相关性"> 0,79 0,98 可比
"用于空间中的生物医学和分子检测应用的表面增强拉曼散射传感器"> 0,00 0,00 可比
"通过代谢物分析了解中国不同地区种植的水稻的风味特征"> 0,26 0,70 不同
"用选定的乳酸菌和双歧杆菌发酵的红薯残渣的营养成分、抗氧化活性、挥发性化合物和稳定性 0.77 0.87 可比

我们也一直在将分类器从NLC迁移到NLU,并进行分析以解释差异。我们探讨了不同的可能因素,以了解可能产生影响的因素:大写/小写、文本长度……在这些情况下没有发现相关性。

然而,我们确实发现了NLU返回的第一类和第二类之间的分数差异与NLC的分数下降之间的一些相关性。也就是说,我们注意到,第二节课的成绩越接近,第一节课的NLU成绩就越低。我们称之为混乱。就我们的数据而言,有时混淆是"真实的"(即SME也会将测试短语归类为两个类别之间的边界),但有时我们意识到我们可以改进训练数据,使其具有更多"不同"的类别。

总之,我们无法解释产生差异的NLU的内部原因,NLC和NLU之间的分数确实有所下降,但这是全面的。尽管分数有所降低,我们仍将继续进行NLU:这并不妨碍我们对结果的解释。

最新更新