我将建立一个模型来识别数据集中的异常。我研究了很多,发现隔离林是最好的。在我的数据集中,我没有任何标签(这意味着数据集只包含解释变量(。但我不知道在隔离林中设置污染参数(大多数解释的文章已经有了输出变量[标记为异常],他们用它计算异常值比率,然后将其设置为污染值(。
设置它是强制性的吗?。污染的默认值为0.1。可以忽略它吗如果我没有给出它的值,它会影响模型结果吗
model = IsolationForest(contamination=0.1, n_estimators=1000)
否,不强制设置污染值。默认情况下,它被设置为"0";自动";。
污染"自动"或浮动,默认值="自动">数据集的污染,即数据集。在拟合时用于定义样本。
文档中的参考
因此,您可以忽略它,但它可能/将影响模型结果,因为预测方法使用了由污染值设置的阈值。
预测方法利用原始评分的阈值由估计器计算的函数。此评分功能可通过
score_samples
方法访问,而阈值可以由CCD_ 2参数控制。
文档中的参考