如何读取/编辑具有 html 标记的.txt文件



我正在尝试清理 html 标签的.txt文件。我将此链接的内容保存到.txt文件中。

https://www.sec.gov/Archives/edgar/data/1630970/000149315218014686/0001493152-18-014686.txt

我想删除 html 标签,但在实际读取/写入文件时遇到问题。

我刚刚尝试在使用BeautifulSoup处理文件之前打开文件。

f = open('test_file.txt',"r")
print(f)

返回:

<_io.TextIOWrapper name='test_file.txt' mode='r' encoding='UTF-8'>

所需的输出将打印文件。因为无法打开它而感到有点疯狂。

如果你使用像Beautiful Soup这样的适当的HTML解析器,你可以删除HTML标签并只容易地获取文本:

from pathlib import Path
import BeautifulSoup
contents = Path(file_path).read_text()
soup=BeautifulSoup.BeautifulSoup(contents)
print soup.text

注意以上是 Python 3 代码

问题是您打印的是open返回的文件对象,而不是对象表示的文件包含的文本。

您需要告诉它读取文件。最简单的方法是使用readlines,或者,正如文档所指出的,直接迭代对象:

for line in f:
print(line)

您可以在本机读取文件。 喜欢这个。 您缺少 .read

f=open("test_file.txt", "r")
if f.mode == 'r':
contents =f.read()
print(contents)

最新更新