如何一次在 20000 个文档上运行主题模型



我有 20000 个新闻文档来运行主题建模:

我想从文档中看到主题动态和演变。我尝试使用以下批处理脚本与 mallet 的主题建模一起使用,但没有工作。

#!/bin/bash
for filename in /Users/JasonDou/code/internet_finance/bydocafterseg2; do
    ./bin/mallet import-dir --input /Users/JasonDou/code/internet_finance/bydocafterseg2/159047443.txt  --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

您缺少一个星号:

#!/bin/bash
for filename in "/Users/JasonDou/code/internet_finance/bydocafterseg2/"*; do
    [ -e "$filename" ] || continue
    ./bin/mallet import-dir --input "$filename" 
      --output bydoc-input.mallet --keep-sequence --remove-stopwords
done

以上将列出对每个文件的迭代bydocafterseg2。您可以通过以下方式将其更改为所有.txt文件: "bydocafterseg2/"*".txt"

相关内容

  • 没有找到相关文章

最新更新