机器学习-文本分类/带有Mallet序列标记的文档分类



我将文档作为类别排列在文件夹中。对于新的输入(例如所问的问题),我必须确定其类别。使用MALLET的最佳方法是什么?我已经看了很多关于这方面的文章,但找不到这样的方法。

此外,我需要对输入文本进行序列标记吗?

  1. 首先,您需要从排列为文件夹的文档中开发一个培训模型。对于Mallet,每个文件夹将包含一个或多个文档,并且每个文件夹将代表它们的类

一旦你有了培训文档,你需要创建一个Mallet可以理解的文件。转到Mallet的bin文件夹,在命令行中输入如下命令——

mallet import-dir --input directory:...parentfolder* --preserve-case --remove-stopwords --binary-features --gram-sizes 1 --output directory:mallet-file-name

这只是一个例子。如果您键入以下内容,则可以完全显示此查询中的参数--

mallet import-dir --help
  1. 一旦创建了这个Mallet文件,就需要通过放置以下命令来训练模型——

    mallet训练分类器--训练器算法名称--输入目录:\ mallet文件名称--输出分类器目录:。。。\型号

现在已经创建了模型,可以使用该模型对具有未知类的文档进行分类。

mallet classify-file --input directory:...data --output - --classifier classifier

这将在标准输出中提供名为data的文档类。

是否需要使用序列标记取决于您试图分类的数据。

相关内容

  • 没有找到相关文章

最新更新