需要NLP用例的建议



我正在尝试构建一个可以将给定URL的内容预测为多个类别的web scraper,但我目前对哪种方法最适合我的用例感到困惑。以下是总体用例:

我想从研究人员的传记中预测他们的兴趣,并根据可持续发展目标17将他们分为一个或多个类别。我有三个数据点要处理:

  1. 每位研究人员的传记(可以废弃和标记化)
  2. 通常与每个可持续发展目标类别/目标相关联的关键字列表(以下是所述关键字的示例)
  3. 由学生以二进制数据的形式手动完成的数百种分类(这是所述数据的示例)

到目前为止,我们有学生阅读每个研究人员的传记,并决定每个研究人员属于哪个可持续发展目标类别/目标。一项研究可以属于一个或多个可持续发展目标类别。我们通常根据数据库中列出的可持续发展目标关键字在每个研究人员的简历中出现的频率对其进行分类。

我已经查找了NLP的在线机器学习模型,但无法决定哪种方法最适合我的用例。任何建议和参考都将非常感谢,因为我在这里有点迷路了。

这里的问题是多标签分类你可以通过应用监督学习来解决这个问题,因为你有一个标记的数据集。

标记的数据集应该看起来像这样,

article 1 - sdg1, sdg2, sdg4
article 2 - sdg4
.
.
.

这里详细解释了实现- keras - multi-label-classification

这个有很多抽象的东西,实现很简单——快速文本多标签分类

这些图书馆的深刻见解在这里,Keras和fasttext

相关内容

  • 没有找到相关文章