我正在尝试清理 html 标签的.txt文件。我将此链接的内容保存到.txt文件中。
https://www.sec.gov/Archives/edgar/data/1630970/000149315218014686/0001493152-18-014686.txt
我想删除 html 标签,但在实际读取/写入文件时遇到问题。
我刚刚尝试在使用BeautifulSoup处理文件之前打开文件。
f = open('test_file.txt',"r")
print(f)
返回:
<_io.TextIOWrapper name='test_file.txt' mode='r' encoding='UTF-8'>
所需的输出将打印文件。因为无法打开它而感到有点疯狂。
如果你使用像Beautiful Soup这样的适当的HTML解析器,你可以删除HTML标签并只容易地获取文本:
from pathlib import Path
import BeautifulSoup
contents = Path(file_path).read_text()
soup=BeautifulSoup.BeautifulSoup(contents)
print soup.text
注意以上是 Python 3 代码
问题是您打印的是open
返回的文件对象,而不是对象表示的文件包含的文本。
您需要告诉它读取文件。最简单的方法是使用readlines
,或者,正如文档所指出的,直接迭代对象:
for line in f:
print(line)
您可以在本机读取文件。 喜欢这个。 您缺少 .read
f=open("test_file.txt", "r")
if f.mode == 'r':
contents =f.read()
print(contents)