使用MALLET进行文本分类

我刚开始使用Mallet。我通常使用WEKA进行分类，现在我尝试使用Mallet进行文本分类。在Weka中，有一些属性(如单词长度或单词出现次数排在前n位)由我们自己选择并生成.arff文件。

我已经阅读了关于http://mallet.cs.umass.edu/import.php中Mallet的输入格式，但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文档属于某个类?例如，一个文档属于"sports"类?

任何输入格式文件的例子将非常感谢。

谢谢!

-我们如何判断这个文档属于某个类?:

每个类可以有一个文件夹，例如:C:/语料库/Class1C:/语料库/Class2C:/语料库/Classn每个文件夹包含属于该类的文件。

如何在输入格式中分配属性?

如果你想知道文件导入的选项，执行:C:/棒/bin一旦你到了那里:木槌导入-dir -help并且会显示导入文件的选项，例如——remove-stopwords，——gram sizes。

导入文件示例代码:

bin/mallet import-dir——input C:/Corpus/*——output Corpus。木槌-克大小1、2 -保存-case

相关内容