如何使用来自不同位置的数据(分类变量)建立统计模型



我正在帮我女朋友为她的硕士论文项目(Env.Sci(制作模型。数据集包含以下列:站点距离(m(深度(cm(pH%N%C C:N

她测量了来自5个不同沼泽(湿地(的土壤/泥炭样品的pH值、总碳和总氮。

"距离(m("是指距离非随机起点(湿区(的距离,在一些地点,它也会倒退到负值。C: N来源于%N和%C,Depth是采集土壤样本的深度。

我们应该如何对数据建模?我们怀疑所有的变量之间都有关系。。

数据是否应该按站点分组,然后进行回归模型,然后与其他站点进行比较?或者,如何根据数值处理"位点"(分类变量(?

您可以使用许多技术来处理这个问题。One Hot编码就是其中之一。实际上这取决于你的数据。我强烈建议您阅读本页以决定最佳选项:https://www.datacamp.com/community/tutorials/categorical-data此外,你不应该自己选择你的功能。(我们怀疑所有变量之间都有关系。->你不必确定哪些特征是最相关的(。我们可以使用一些方法。看看这个https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

最新更新