我有一个非常大的语料库,每个元素都由大量高维数据组成。元素不断被添加到语料库中。每次交互可能只需要考虑语料库的一部分。元素被标记,可能具有多个标签和与这些标签的强度相关联的权重。据我所知,这些数据并不稀疏。
输入数据是在大约(10-1000)个输入之间的-1…1范围内的一组参数。这可能有一定的灵活性,这取决于哪种机器学习方法最合适。
我的目标是高端智能手机设备。理想情况下,处理可以在同一台设备上完成,但我对将其传输到普通服务器的可能性持开放态度。
对于这种情况,什么是合适的机器学习方法?
我一直在读关于随机forrest决策树、受限boltzmann机器、深度学习boltzmann机等的文章,但我真的可以利用一位经验丰富的专家的建议,指导我找到一些在给定条件下有效的研究方法。
如果我的描述看起来不稳定,请告诉我,因为我仍在掌握这些想法,可能从根本上误解了某些方面。
尝试使用最简单的k近邻算法。您可以使用曼哈顿距离函数来获得快速距离函数。然后,您可以根据最近的点进行加权平均或多数分类。
这也类似于内核回归。我建议使用诸如k-d树之类的数据结构来有效地存储您的点。