机器学习,决策树



我有一个关于机器学习和决策树的问题。我从事计算生物学(长RNA二级结构预测)。

我有一个程序可以预测预测的RNA二级结构的准确性。程序的输入参数为

  • 茎长(L) -值为3,4,5,6,7和8
  • 间隙大小(G)—0、1、2、3、4、5、6、7、8
  • 块长度(c) -从60,70,80,90,100,120,130,140和150
  • 的值

我想知道,对于给定长度(S)的RNA序列,哪种L,G,C组合具有最大的准确性。

我有一个包含50个序列文件的训练数据集,序列长度为S,对于每个序列文件,L,G,C输入参数组合可以提供最大的输出精度,这是已知的。

是否有一种方法可以让我们知道使用哪些特定的L,G和C参数,以便在没有所有L,G和C范围值的情况下找到最大的精度?

你的问题陈述不是很清楚。

你想要一个监督学习算法,它从你的50个训练样本中学习,并创建一个预测程序,该程序将"序列文件"作为输入,并为该序列文件产生L, G和C的输出值。

正确吗?

监督学习算法有很多选择。序列文件中的数据究竟是什么?它是实数向量吗?它有什么结构?如果你必须为一个序列文件"手工"确定L、G和C,你能做到吗?你会怎么做?

我认为您希望在三个参数(L,G,C)中找到一个"最大的影响因素",这不是一个很常见的要求,但我认为一些想法可能会对您有所帮助。

  1. 你可以构建几个不同的决策树,使用三个参数(一个树),两个参数(三个树,因为每次你从三个参数中选择两个)和只有一个参数(当然,三个树)。所以你可以有7棵决策树,然后你可以比较它们的精度输出,这样你就可以知道不同参数对最终预测的贡献。

  2. 你可以计算这三个参数与最终预测的相对矩阵,然后你就知道它们对最终结果的贡献权重。

p。你要求(只选择一个因素来进行机器学习)一般不是一个好主意,因为不同因素对预测的贡献通常不是线性的,也就是说要知道,在机器学习的输入向量中结合更多的因素通常会给你带来更好的结果。

祝你好运!

最新更新