你好,我正试图分析大约30000个请求的描述,以识别常见的请求,因为数据没有标签或标题。
我已经看了很多关于情感分析的内容,我目前认为我需要从一个小的随机样本中训练一个模型来更好地分类数据。
有更好的方法我应该遵循吗?
在回答你的问题之前,我会说你正在寻找的解决方案与情感分析类似,但是不同的情况。如果你想对任何文档进行分组,你可以在AI中使用两种方法。
1-监督学习(分类)
2-无监督学习(聚类)
在您的情况下,由于没有标记(tagged)数据,那么聚类更方便。
您可以生成tf-idf向量,并将其用作描述中每个单词和文档的特征,并基于该特征对数据进行聚类。根据你使用的编程语言不同,网上有很多例子,但对于java,你可以查看下面的链接,
TextAnalyzer
胡萝卜集群