Java SVM 文本分类、训练和测试文件?



我正在尝试将文本文档分类为类别,例如:

文件1:"篮球是一项好运动"--->类别:体育
文件2:"第二次世界大战…"--->分类:历史
。。。

我的目标是用SVM算法创建一个Java接口
所以,我应该使用SVM Java库,我发现了两个:

  • SVMLIGH
  • LIBSVM

我应该使用第一个还是第二个?

我做了很多研究,发现我应该做两件事:

  • 我应该准备一份培训文件
    在SVM中,这个文件有一种特殊的格式(例如:1 1:317.5)
    但问题是:我应该根据什么生成这个文件?仅从文件中?或者来自其他什么?

  • 我应该有一个测试文件,这意味着要对一个新文档进行分类。我应该将新文档转换为SVM测试文件格式吗?

对吗?

请引导我,我真的迷路了,我不知道该怎么办!PLZ

是的,您应该将格式更改为svm标准svm分类器对文本一无所知,首先应该将文本(训练、测试)更改为standrad格式你可以用Weka启动你的分类器,Weka有简单的GUI&只需点击几下即可对数据集进行分类当你对你的分类器有信心时&它的准确性,然后用java实现你也可以在你的java代码中使用Weka

PS:1-第一次WEKA文本分类&初级用户:http://www.youtube.com/watch?v=IY29uC4uem8

2-http://www.cs.waikato.ac.nz/ml/weka/‎

最新更新