我正在尝试为我在scikit learn中构建的朴素贝叶斯模型构建自己的pmml导出器。 在阅读 PMML 文档时,似乎对于每个特征向量,如果模型是离散的,则可以根据计数数据输出模型,如果它是连续的,则可以输出为高斯/泊松分布。 但是我的scikit学习模型的系数是根据特征的经验对数概率,即p(y|x_i)。 是否可以根据这些概率而不是计数来指定贝叶斯输入参数?
由于朴素贝叶斯模型的 PMML 表示通过"PairCounts"元素实现表示联合概率,因此可以简单地将该比率替换为概率输出(而不是对数概率)。由于最终概率是归一化的,因此差异无关紧要。如果需求涉及大量概率(大部分为 0),则模型的"阈值"属性可用于设置此类概率的默认值。