嗨,我正在使用 gensim 进行主题建模,并且正在使用 Mallet 并执行此代码,如图所示,我在 c 驱动器中解压缩了 mallet,并设置了环境MALLET_HOME
命令。我正在执行的代码是
mallet_path = r'c:/mallet-2.0.8/bin/mallet'
ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=corpus,
num_topics=20, id2word=id2word)
这给了我这样的错误
CalledProcessError Traceback (most recent call last)
<ipython-input-58-6e0dbb876ee6> in <module>()
----> 1 ldamallet = gensim.models.wrappers.LdaMallet(mallet_path,
corpus=corpus,
num_topics=20, id2word=id2word)
~AppDataLocalContinuumanaconda3libsite-
packagesgensimmodelswrappersldamallet.py in __init__(self, mallet_path,
corpus, num_topics, alpha, id2word, workers, prefix, optimize_interval,
iterations, topic_threshold)
124 self.iterations = iterations
125 if corpus is not None:
--> 126 self.train(corpus)
127
128 def finferencer(self):
~AppDataLocalContinuumanaconda3libsite-
packagesgensimmodelswrappersldamallet.py in train(self, corpus)
265
266 """
--> 267 self.convert_input(corpus, infer=False)
268 cmd = self.mallet_path + ' train-topics --input %s --num-topics
%s --alpha %s --optimize-interval %s '
269 '--num-threads %s --output-state %s --output-doc-topics %s -
-output-topic-keys %s '
~AppDataLocalContinuumanaconda3libsite-
packagesgensimmodelswrappersldamallet.py in convert_input(self, corpus,
infer, serialize_corpus)
254 cmd = cmd % (self.fcorpustxt(), self.fcorpusmallet())
255 logger.info("converting temporary corpus to MALLET format with
%s", cmd)
--> 256 check_output(args=cmd, shell=True)
257
258 def train(self, corpus):
~AppDataLocalContinuumanaconda3libsite-packagesgensimutils.py in
check_output(stdout, *popenargs, **kwargs)
1804 error = subprocess.CalledProcessError(retcode, cmd)
1805 error.output = output
-> 1806 raise error
1807 return output
1808 except KeyboardInterrupt:`
CalledProcessError: Command 'c:mallet-2.0.8binmallet import-file --
preserve-case --keep-sequence --remove-stopwords --token-regex "S+" --input
C:Usersapath009AppDataLocalTempd186ea_corpus.txt --output
C:Usersapath009AppDataLocalTempd186ea_corpus.mallet' returned non-zero
exit status 1.
请帮忙!!
我也遇到了这个错误,但现在它正在工作。我不确定我做了什么让它开始工作,但我会详细说明我所做的一切。
首先,我遵循此链接中的所有内容,答案包含3个步骤(粘贴在下面(: 实现 gensim 时出错。达马利特
-
确保已设置
MALLET_HOME
-
在 Python 中设置mallet_path时转义斜杠
mallet_path = 'c:\mallet-2.0.8\bin\mallet' LDA_model = gensim.models.LdaMallet(mallet_path, ...
-
此外,修改第 142 行
PythonLibsite-packagesgensimmodelsldamallet.py:
更改--token-regex 'S+' to --token-regex "S+"
但我仍然收到错误。接下来,我的电脑是双启动的,所以我启动了lubuntu,安装了java,python3,gensim,并将mallet文件夹复制到lubuntu分区。我使用与 windows 相同的代码运行了一个测试 python 文件,但使用从 lubuntu 终端/home/Desktop/mallet-2.0.8/bin/mallet
的新 mallet 目录。成功了。然后我启动回Windows,突然它也在Windows上运行。
检查是否已正确安装 Java,是否已设置JAVA_HOME
系统变量,以及是否已将%JAVA_HOME%bin
添加到PATH
全局系统变量中。
完成此操作后,重新启动计算机以使更改生效。
这为我做了一个技巧。