机器学习可以帮助对数据进行分类吗?

>我有一个数据集如下，

代码 |描述

AB123 | 手机

B467A | 移动电话

12345 | 电话

WP9876 | 无线电话

SP7654 | 卫星电话

SV7608 | 轿车

CC6543 | 汽车轿跑车

需要根据代码和说明创建自动分组。假设我已经将如此多的此类数据分为 0-99 组。每当新数据带有代码和描述时，机器学习算法都需要根据以前可用的数据自动对其进行分类。

代码 |描述 |群

AB123 | 手机 | 1

B467A | 手机 | 1

12345 | 电话 | 1

WP9876 | 无线电话 | 1

SP7654 | 卫星电话 | 1

SV7608 | 轿车 | 阿拉伯数字

CC6543 | 轿跑车 | 3

这能达到一定程度的准确性吗？目前，此过程是手动的。任何此类想法或参考资料都在那里，请提供帮助。

尝试阅读监督学习。您需要为训练数据提供标签，以便算法知道什么是正确答案 - 并能够为您生成适当的模型。

然后，您可以使用生成的模型"预测"新传入数据的输出类。

最后，您可能希望回头检查预测结果的准确性。如果随后为新接收和预测的数据输入标签，则可以将这些数据用于模型的进一步训练。

是的，监督学习是可能的。你为自己选择一个模型，用你已经拥有的数据"训练"它。然后，模型/算法从已知数据中"泛化"到以前未见过的数据。

您指定为组的内容将称为类或"标签"，需要根据 2 个输入特征（代码/描述）进行预测。是直接输入这些特征，还是将它们预处理成更适合算法的更抽象的特征，取决于选择哪种算法。

如果你没有机器学习的经验，你可以从学习一些基础知识开始，同时测试已经在RapidMiner、Weka或Orange等工具中实现的算法。

我不认为机器学习方法最适合解决问题，因为基于文本的机器学习算法往往相当复杂。从您提供的示例中，我不确定如何

我认为解决或尝试解决此问题的最简单方法是以下内容，可以在许多自由编程语言中实现，例如python。每个描述都可以存储为字符串。你可以做的是存储所有字符串的所有子字符串（即Phone是你的字符串，子字符串将是'P'，'h'，Ph',..,'e'），属于列表中的特定组（请参阅这个问题了解如何在python中实现它...使用 Python 的字符串的子字符串）。然后，您要针对每个子字符串和存储的所有子字符串，查看哪些子字符串对于某个组是唯一的。然后选择超过一定长度（例如 3 个字符长，以摆脱随机字母串联）的字符串作为分类标准。然后，当您获得新数据时，请检查该描述对于某个组是否唯一。例如，您将能够根据其描述是否包含单词电话对组 1 中的所有对象进行分类。

在不知道您熟悉/可以使用哪些语言的情况下，很难提供具体的代码来解决您的问题。我希望这无论如何都有帮助。伊夫

相关内容

最新更新

热门标签：