我已经开始使用Python库textract
从PowerPoint( .pptx(,Word Documents( .docx(和文本文件(*.txt(解析文本(*.txt((。我写了一个简单的脚本来测试它。
# Python textract test script
import textract
textract.process("H:My DocumentsTest.docx")
当我在命令行或空闲中运行它时,我得到了最后几行的追溯:
文件:" c:... dextract parsers docx_parser.py",第1行 导入docx2txt Importerror:无模块docx2txt
我正在使用1.5.0版,从https://pypi.python.org/pypi/textract下载。我不知道为什么它不包括任何依赖项。我是否必须安装docx2txt
及其后续依赖关系?为什么textract
软件包不包含我需要的一切?
这对我有用,
打开终端,然后按照下面的方式键入它们,
python -m venv env
source ./env/bin/activate
sudo apt update
sudo apt install python-pip && pip install --upgrade pip
sudo apt install python-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-ocr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig
pip install textract
如果您遇到任何错误,请在下面尝试它们
pip install https://pypi.python.org/packages/ce/c7/ab6cd0d00ddf8dc3b537cfb922f3f049f8018f38c88d71fd164f3acb8416/SpeechRecognition-3.6.3-py2.py3-none-any.whl
sudo apt install libpulse-dev
pip install textract
我建议使用pip install xxx
安装模块。这将安装在通常由Python抬头的路径中。它也应该照顾依赖。
如果您进行了手动安装或仅将其提取到晚餐文件夹,则正确设置了您的路径,就像这里所述如何添加到Windows 7中的PythonPath?或Python- Linux中的PythonPath
如果您认为已经正确设置了它,然后将其值发布,PWD等。
textract
不会自动为其支持的所有文件类型安装依赖项。您有选择地安装了您感兴趣的。
虽然这不像人们想象的那样优雅,但我认为这是适当的设计选择。Python无法在按需安装依赖项上,因此唯一的选择是让textract
安装 all 多打或更多可能的依赖项,这往往会膨胀您的python环境。p>因此,在这种情况下,正如Kashyap所述,适当的动作是:
pip install python-docx
,对于您可能需要的任何其他文件类型依赖项类似。