使用MALLET进行文本分类



我刚开始使用Mallet。我通常使用WEKA进行分类,现在我尝试使用Mallet进行文本分类。在Weka中,有一些属性(如单词长度或单词出现次数排在前n位)由我们自己选择并生成.arff文件。

我已经阅读了关于http://mallet.cs.umass.edu/import.php中Mallet的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文档属于某个类?例如,一个文档属于"sports"类?

任何输入格式文件的例子将非常感谢。

谢谢!

-我们如何判断这个文档属于某个类?:

每个类可以有一个文件夹,例如:C:/语料库/Class1C:/语料库/Class2C:/语料库/Classn每个文件夹包含属于该类的文件。

如何在输入格式中分配属性?

如果你想知道文件导入的选项,执行:C:/棒/bin一旦你到了那里:木槌导入-dir -help并且会显示导入文件的选项,例如——remove-stopwords,——gram sizes。

导入文件示例代码:

bin/mallet import-dir——input C:/Corpus/*——output Corpus。木槌-克大小1、2 -保存-case

相关内容

  • 没有找到相关文章

最新更新