如何使用来自不同位置的数据(分类变量)建立统计模型

我正在帮我女朋友为她的硕士论文项目(Env.Sci(制作模型。数据集包含以下列：站点距离(m(深度(cm(pH%N%C C：N

她测量了来自5个不同沼泽(湿地(的土壤/泥炭样品的pH值、总碳和总氮。

"距离(m("是指距离非随机起点(湿区(的距离，在一些地点，它也会倒退到负值。C： N来源于%N和%C，Depth是采集土壤样本的深度。

我们应该如何对数据建模？我们怀疑所有的变量之间都有关系。。

数据是否应该按站点分组，然后进行回归模型，然后与其他站点进行比较？或者，如何根据数值处理"位点"(分类变量(？

您可以使用许多技术来处理这个问题。One Hot编码就是其中之一。实际上这取决于你的数据。我强烈建议您阅读本页以决定最佳选项：https://www.datacamp.com/community/tutorials/categorical-data此外，你不应该自己选择你的功能。(我们怀疑所有变量之间都有关系。->你不必确定哪些特征是最相关的(。我们可以使用一些方法。看看这个https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/

https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2

相关内容

最新更新

热门标签：