根据一串数字和字母进行分类



我有一个装满物品的数据库,我的任务是对它们进行分类(它们可能是书籍、文具等(。选项是手动浏览10万条记录并弄清楚它们是什么,或者自动化任务。

每种类型的项目的代码都遵循某种模式,所以我希望使用机器学习来解决这个问题(我不想使用正则表达式(。虽然我很擅长python,但我的ml知识只涉及随机森林和逻辑回归。

这有可能吗?数据如下:


Item          code          type
1       4S2BDANC5L3247151   book
2       1N4AL3AP1JC236284   book
3       3R4BTTGC3L3237430   book
4       KNMAT2MT1KP546287   book
5       97806773062273208   pen
6       07356196706378892   Pen
7       97807345361169253   pen
8       01008130715194136   chair
9       01076305063010CCE44 chair
etc

我很高兴抬起头来学习任何必要的东西,我只是不知道从哪里开始谢谢

我知道您有100k的例子。你可以使用RNN、LSTM或基于注意力的深度学习方法,因为这些模型可以跟踪代码的模式。机器学习模型也可以解决这个问题。最后,您的问题包括不同类的特定类型的模式。因此,您可以分离这些类。

1( 您需要从找到表示代码的嵌入开始。我想你可以使用数字和字母的ascii码。此外,要使所有向量的长度相同,请使用填充。然后你可以将它们标准化,使其处于0-1之间。

2( 然后我的建议是从SVM开始,采用一对一策略进行多类分类。之后,您可以尝试XGBoost,这是一个强大的ml模型。或者你可以从更基本的ml模型开始。这背后的想法,从基本开始,到复杂的模型

3( 如果ml模型不足以完成该任务,请从基本RNN模型开始

我不知道你的数据在类之间的分布以及类的数量。如果它是平衡的,并且每个类都有足够的数据,我想你可以很容易地自动化这项任务。

最新更新