从 zip 文件夹中的所有".txt"和".docx "文件中删除标点符号和停用词



实际上,我在file_list中有八个".txt"文件和两个".docx"文件。我的任务是从文件列表中的所有文件中删除所有停止词和标点符号。我只是提供了代码中我遇到错误的部分。有人能指导我如何从我所有的文件类型中删除停止词和标点符号吗。我尝试了以下代码,但无法成功执行。我还在这里提供文件夹.file_list。此外,当我运行以下代码时,我会遇到.docx文件的UTF-8错误。

from string import punctuation
for each_file in range(1, len(file_list)):
print("Current working filename is:",file_list[each_file],end="n") 
with open(file_list[each_file],'r',encoding='utf-8') as file:
without_punct = [char for char in file.readlines() if char not in punctuation]
print(without_punct)

.docx文件出现编码错误,因为.docx文件不是标准文本文件,这意味着它有自己的格式。Python本身支持读取纯文本文件,这就是为什么它适用于.txt文件,而不适用于.docx文件。我建议使用像python-docx这样的库从.docx文件中提取文本

相关内容

  • 没有找到相关文章

最新更新