简单的二进制文本分类



i寻求最有效,最简单的方法,将800K 学术文章分类为相关(1)或与定义的概念空间无关(0)工作)。

数据是:title&摘要(平均= 1300个字符)

可以使用甚至合并任何方法,包括监督的机器学习和/或通过建立引起一定阈值值的特征,除其他功能外。

方法可以借鉴描述概念空间的关键术语,尽管仅简单的频率计数太不可靠。潜在的途径可能涉及潜在的语义分析,n-gram,..

生成培训数据对于多达1%的语料库可能是现实的,尽管这已经意味着手动编码8,000篇文章(1 =相关,0 =无关紧要),这足够了吗?

特定的想法和一些简短的推理得到了非常感谢,因此我可以就如何进行的明智决定做出明智的决定。非常感谢!

几个想法:

  1. 运行LDA并获取文档主题和主题 - 单词分布(20个主题,具体取决于您对不同主题的数据集报道)。将具有最高相关主题的最高文档分配为相关和低NR%的文档。然后在那些标记的文档上训练分类器。

  2. 只需使用一袋单词,然后检索最接近查询的negihbours(您的概念空间)是相关的,而Borrom nr%则不相关,并在上面训练分类器。

  3. 如果您有引用,可以通过标记很少的论文来通过网络图进行标签传播。

  4. 不要忘记将标题单词与您的抽象单词不同,通过将标题单词更改为title_word1,以便任何分类器都可以在它们上施加更多的权重。

  5. 将文章集中到100个簇中,然后选择手动标记这些簇。根据您的语料库中不同主题的覆盖选择100。您也可以为此使用层次聚类。

  6. 如果是相关文档的数量小于非相关文档的数量,那么最好的方法是找到与您概念空间的最接近的邻居(例如,使用Lucene中实现的信息检索)。然后,您可以在排名的结果中手动下降,直到您认为文档不再相关。

这些方法中的大多数是 boottrapping 弱监督用于文本分类的方法,您可以提供更多文献。

最新更新