机器学习 - 从文本中得出信息 - Machine Learning - Derive information from a text 小贝子编程网

我是机器学习和监督学习领域的新手。

我的任务是：从磁盘上的电影文件的名称中，我想检索有关该文件的一些元数据。我无法控制文件的命名，但是它具有标题和一个或多个其他信息，例如发行年，分辨率，演员姓名等。

目前，我已经开发了一个基于启发式规则的系统，在该系统中，我将名称分为令牌，并试图理解每个单词可以单独或与相邻的单词所代表的内容。例如，为了检测人员名称，我正在使用英语名称的数据集，如果我在数据集中找到该单词是潜在的人的名字。如果与它相邻的是我作为潜在姓氏得分的单词，那么我将两个单词评为演员。等等。它具有良好的精度，但是将手动的启发式分数更改为"教"该系统是乏味和不可预测的。

这种基于规则的系统很难进一步维护或发展，因此，出于好奇心，我正在探索机器学习领域。我想知道的是：

是否有关于此类问题的公共文献？
鉴于可用的数据集有限，ML是解决问题的好方法吗？
我将如何进行调试或尝试理解这种机器的结果？我已经开发了"简单"的启发式引擎有问题。

谢谢，任何建议都将不胜感激。

您需要查看NLP(自然语言处理(。NLP处理文本处理和其他内容；例如实体识别和标记。

这是使用spacy库的一个示例：https：//spacy.io/usage/linguistic-features。

前一段时间我做了类似的事情，您可以在这里看到：https：//github.com/erlemar/erlemar.github.io/blob/blob/master/notebooks/notebooks/fate_zero_explore.ipynb

/html>

机器学习 - 从文本中得出信息

相关内容

最新更新

热门标签：