我面临以下问题:给定 k 维空间中的一个点,选择一组离散参数以最大化正(二进制)结果的概率。我有相同形式的培训示例,例如
point parameters good?
------ ---------- -----
1) x1 x2 x3 p1 p2 p3 NO
2) x1 x2 x3 p1 p2 p3 YES
3) x1 x2 x3 p1 p2 p3 YES
...etc.
所有参数都是自由变量,并且有任意数量的参数(k也是任意的)。我考虑过
- 生成点的聚类,调整每个聚类
- 的参数,然后将每个新点与聚类关联。
- 开发一个模型来分别预测每个参数。
两者都有很大的缺点。我想知道是否有更系统的方法可以解决这个问题(似乎是一个足够普遍的问题)。谁能指出我一些相关的阅读或算法?
谢谢,如果这是问这类问题的错误地方,我提前道歉。
这是一个经典的分类(数据挖掘)问题,由您来选择要使用的算法。最常见的方法是:
- KNN (k-最近邻)
- 贝叶斯分类器 支持向量机
- (支持向量机)
- 决策树
您应该阅读它们并决定哪一个最适合您的问题,不幸的是,没有适用于所有域和数据的"最佳"方法。
您没有提到的另一种简单技术是 k 最近邻 - 在 k 维空间中找到离输入点最近的正点并复制其选择的参数。
如果您知道或能够找到更多关于 k 维空间或参数的实际含义,您可能能够利用这些知识来构建一个好的模型。