简单的二进制文本分类

i寻求最有效，最简单的方法，将800K 学术文章分类为相关（1）或与定义的概念空间无关（0）工作）。

数据是：title＆amp;摘要（平均= 1300个字符）

可以使用甚至合并任何方法，包括监督的机器学习和/或通过建立引起一定阈值值的特征，除其他功能外。

方法可以借鉴描述概念空间的关键术语，尽管仅简单的频率计数太不可靠。潜在的途径可能涉及潜在的语义分析，n-gram，..

生成培训数据对于多达1％的语料库可能是现实的，尽管这已经意味着手动编码8,000篇文章（1 =相关，0 =无关紧要），这足够了吗？

特定的想法和一些简短的推理得到了非常感谢，因此我可以就如何进行的明智决定做出明智的决定。非常感谢！

几个想法：

运行LDA并获取文档主题和主题 - 单词分布（20个主题，具体取决于您对不同主题的数据集报道）。将具有最高相关主题的最高文档分配为相关和低NR％的文档。然后在那些标记的文档上训练分类器。
只需使用一袋单词，然后检索最接近查询的negihbours（您的概念空间）是相关的，而Borrom nr％则不相关，并在上面训练分类器。
如果您有引用，可以通过标记很少的论文来通过网络图进行标签传播。
不要忘记将标题单词与您的抽象单词不同，通过将标题单词更改为title_word1，以便任何分类器都可以在它们上施加更多的权重。
将文章集中到100个簇中，然后选择手动标记这些簇。根据您的语料库中不同主题的覆盖选择100。您也可以为此使用层次聚类。
如果是相关文档的数量小于非相关文档的数量，那么最好的方法是找到与您概念空间的最接近的邻居（例如，使用Lucene中实现的信息检索）。然后，您可以在排名的结果中手动下降，直到您认为文档不再相关。

这些方法中的大多数是 boottrapping 或弱监督用于文本分类的方法，您可以提供更多文献。

相关内容