我正在尝试使用mallet构建文本分类器。数据有点大,所以我正在寻找一种方法,如果可能的话,在多个线程上运行"导入"任务,因为它需要很长时间才能加载。这里有几个问题:
-
有没有办法通过划分数据并单独导入然后连接它们来手动并行化该过程。我知道我可以并行运行它们并获取多个输入文件,但是我可以在训练分类器之前组合生成的 mallet 输入文件吗?
-
如果机器上有可用的线程,木槌本身是否会使此过程平行化?
感谢您的帮助!
实际上,您的问题似乎与木槌没有直接关系。所以要回答你的问题,两个木槌不做这样的事情。但是您可以将文本分成相等的部分,然后通过将所有文本保留在同一文件夹中并为 Mallet 提供该文件夹的路径来使用它们。此链接可以帮助您实现它。您需要按照One instance per file
部分的说明进行操作。