隔离林的LIME ML解释器模式分类或回归(异常检测)



我正试图在我的1000多个文档的数据集中找到异常。我正在使用LIME ML解释器来解释模型(隔离林(的预测。在一个参数"0"中;模式";我可以在分类和回归之间进行选择。我没有一套已知异常的文件。由于隔离森林是一种无监督的学习方法,而分类是一种有监督的学习,用于将观察结果分类为两个或多个类别,因此我最终使用了回归。另一方面,我有结果异常或没有异常。

在这里使用什么是正确的?

谨致问候,Elle

对我们来说,我们所做的如下:

  1. 使用隔离林获取异常
  2. 将隔离林返回的1和-1作为类标签,并构建一个随机林分类器
  3. 将该随机森林分类器传递给LIME以获得异常点的解释

我们还试图找到一个更好的选择,而不是构建二级随机森林分类器。

不直接涉及LIME,但Shapley值可用于创建IsolationForest的类似解释。看看这个答案。

我看到的另一个选项是在IsoForest树构建期间保留10-20%的数据集。在这个holdout上,对模型进行评分,获得异常评分(或平均树深度(,并在此基础上构建解释器。然后在对新数据进行评分时,LIME会将其视为一个回归问题。。。不过,我不确定这会有多好。。。

最新更新