我只是好奇对sklearn的feature_importances_属性的解释。我知道系数最高的特征是可以高度预测结果的特征。我的问题是 - 这些功能是否强烈预测返回 1(或是)或不一定?(监督学习 - 二元响应 - 是(1)或否(0))。
例如,在建立预测模型后,我发现这些词是最重要的特征 - 内幕交易,盗窃,贪污,投资。响应为"非法"(1) 或"合法"(0)。
这是否意味着当某个文本包含这些单词时,它很有可能是非法的或不一定的?而且,它只是简单地意味着这些词的价值将导致一个强烈的预测(非法或合法)。感谢对此的任何答案。
这意味着这些词与其中一个响应"强烈相关",在您的情况下可能illegal(1)
。根据您的分类器,强关联的确切技术定义会有所不同。它可以是单词和响应的联合概率,P(X='theft', Y='illegal'), or it could be the conditional probability
P(X='theft' |Y='非法')。
直观地说,每当这些术语出现在文档中时,该文档属于illegal
类别的可能性就会增加。