机器学习可以帮助对数据进行分类吗?



>我有一个数据集如下,

代码 |描述

AB123 | 手机

B467A | 移动电话

12345 | 电话

WP9876 | 无线电话

SP7654 | 卫星电话

SV7608 | 轿车

CC6543 | 汽车轿跑车

需要根据代码和说明创建自动分组。假设我已经将如此多的此类数据分为 0-99 组。每当新数据带有代码和描述时,机器学习算法都需要根据以前可用的数据自动对其进行分类。

代码 |描述 |

AB123 | 手机 | 1

B467A | 手机 | 1

12345 | 电话 | 1

WP9876 | 无线电话 | 1

SP7654 | 卫星电话 | 1

SV7608 | 轿车 | 阿拉伯数字

CC6543 | 轿跑车 | 3

这能达到一定程度的准确性吗?目前,此过程是手动的。任何此类想法或参考资料都在那里,请提供帮助。

尝试阅读监督学习。 您需要为训练数据提供标签,以便算法知道什么是正确答案 - 并能够为您生成适当的模型。

然后,您可以使用生成的模型"预测"新传入数据的输出类。

最后,您可能希望回头检查预测结果的准确性。如果随后为新接收和预测的数据输入标签,则可以将这些数据用于模型的进一步训练。

是的,监督学习是可能的。你为自己选择一个模型,用你已经拥有的数据"训练"它。然后,模型/算法从已知数据中"泛化"到以前未见过的数据。

您指定为组的内容将称为类或"标签",需要根据 2 个输入特征(代码/描述)进行预测。是直接输入这些特征,还是将它们预处理成更适合算法的更抽象的特征,取决于选择哪种算法。

如果你没有机器学习的经验,你可以从学习一些基础知识开始,同时测试已经在RapidMiner、Weka或Orange等工具中实现的算法。

我不认为机器学习方法最适合解决问题,因为基于文本的机器学习算法往往相当复杂。从您提供的示例中,我不确定如何

我认为解决或尝试解决此问题的最简单方法是以下内容,可以在许多自由编程语言中实现,例如python。每个描述都可以存储为字符串。你可以做的是存储所有字符串的所有子字符串(即Phone是你的字符串,子字符串将是'P','h',Ph',..,'e'),属于列表中的特定组(请参阅这个问题了解如何在python中实现它...使用 Python 的字符串的子字符串)。然后,您要针对每个子字符串和存储的所有子字符串,查看哪些子字符串对于某个组是唯一的。然后选择超过一定长度(例如 3 个字符长,以摆脱随机字母串联)的字符串作为分类标准。然后,当您获得新数据时,请检查该描述对于某个组是否唯一。例如,您将能够根据其描述是否包含单词电话对组 1 中的所有对象进行分类。

在不知道您熟悉/可以使用哪些语言的情况下,很难提供具体的代码来解决您的问题。我希望这无论如何都有帮助。伊夫

最新更新