从ML中的What技术中提取信息



我想知道机器学习领域中的哪种技术可以解决下面的问题(例如:分类、CNN、RNN等(

问题描述:

用户会输入一个字符串,我想分解字符串以获得我想要的信息。例如:

  1. 用户输入";R21TCCCUSISS";,经过代码分解后,我得到的信息是:;R21";是产品类型;TCC";是批号;CUSISS";是原产地
  2. 用户输入";TT3SUAWXCCAT";,经过代码分解后,我得到的信息是:;TT3S";是产品类型;SUAW";是批号;X〃;是用户输入的错误字符;CCAT";是原产地

产品类型、批号和原产地中没有固定的字符串长度。类似的产品类型可以是";R21";或";TT3S";,意味着产品类型可以包括2个或3个字符。

有时字符串可能包含错误的输入信息;X〃;在上面所示的实施例2中。

我试图找到相关的解决方案,但我得到的最相关的是这个:https://github.com/philipperemy/Stanford-NER-Python

然而,我得到的字符串不是一个句子。一个句子包含空格&语法,但我得到的字符串不适合这种情况。

使用任何ML都无法合理地解决您的问题,因为您有一个定义的产品类型列表等,因为可能没有任何实际的简单逻辑,而且通常您从未在连续体(向量空间等(中工作。ML的目的是从几条数据中建立一个回归函数,并希望/期待一个良好的概括(回归适用于所有看不见的例子,过去、现在和未来(。

基本上,您正在尝试对输入语法和生成进行逆向工程(这是通过一种算法完成的,可能包括一个随机数生成器(。但是,为了断言你的分类器函数正常工作,你需要所有的数据也是基本事实,这打破了ML原则。

您想列出所有定义的产品类型列表(基本事实(,并将输入的部分(有或没有正则表达式模式(分散到不同的类型(批号、原产地(中。";学习;实际上是逐元素构建一个函数(或者几个,每个类型一个(,它填充一个映射(c++(或一个字典(c#(,并使用它来解析输入。

最新更新