python中是否强制设置隔离林的污染值



我将建立一个模型来识别数据集中的异常。我研究了很多,发现隔离林是最好的。在我的数据集中,我没有任何标签(这意味着数据集只包含解释变量(。但我不知道在隔离林中设置污染参数(大多数解释的文章已经有了输出变量[标记为异常],他们用它计算异常值比率,然后将其设置为污染值(。

设置它是强制性的吗?。污染的默认值为0.1。可以忽略它吗如果我没有给出它的值,它会影响模型结果吗

model = IsolationForest(contamination=0.1, n_estimators=1000)

否,不强制设置污染值。默认情况下,它被设置为"0";自动";。

污染"自动"或浮动,默认值="自动">数据集的污染,即数据集。在拟合时用于定义样本。

文档中的参考

因此,您可以忽略它,但它可能/将影响模型结果,因为预测方法使用了由污染值设置的阈值。

预测方法利用原始评分的阈值由估计器计算的函数。此评分功能可通过score_samples方法访问,而阈值可以由CCD_ 2参数控制。

文档中的参考

最新更新