我刚开始使用Mallet。我通常使用WEKA进行分类,现在我尝试使用Mallet进行文本分类。在Weka中,有一些属性(如单词长度或单词出现次数排在前n位)由我们自己选择并生成.arff文件。
我已经阅读了关于http://mallet.cs.umass.edu/import.php中Mallet的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文档属于某个类?例如,一个文档属于"sports"类?
任何输入格式文件的例子将非常感谢。
谢谢!
-我们如何判断这个文档属于某个类?:
每个类可以有一个文件夹,例如:C:/语料库/Class1C:/语料库/Class2C:/语料库/Classn每个文件夹包含属于该类的文件。
如何在输入格式中分配属性?
如果你想知道文件导入的选项,执行:C:/棒/bin一旦你到了那里:木槌导入-dir -help并且会显示导入文件的选项,例如——remove-stopwords,——gram sizes。
导入文件示例代码:
bin/mallet import-dir——input C:/Corpus/*——output Corpus。木槌-克大小1、2 -保存-case