我正在构建一个 Web 应用程序,该应用程序处理网页中的文本,添加指向某些实体的链接,然后完全按原样重新显示页面,但添加了一些链接。我的服务器端代码是Perl和Python的,我目前正在使用HTML::P arser从页面中提取文本。我可以毫无问题地清理标记、提取和处理文本,但我想完全按原样显示原始页面,只是在以前未链接的文本中添加了一些链接。
我希望找到重新显示完全相同页面的最佳方法,并在文本中的某些单词或短语中添加链接。所有原始标记都应完全保留在提取文本之前的状态。
我已经彻底搜索了,但我找不到这个问题的精确解决方案。任何帮助将不胜感激。
我知道Python有一个用于打开网页的模块,称为urllib:
import urllib
url = 'https://www.google.com/'
page = urllib.urlopen(url)
print page.read()
#page.read is the url's source code, so you would print the source code here.
你也可以像这样用python保存一个新的HTML文件:
page = page.read()
file = open('url.html', 'w')
file.writelines(page)
file.close()
在这两者之间,您可以修改 html 源代码。请记住,如果您不弄清楚如何保存页面正在使用的文件,网页看起来会很愚蠢。希望这有帮助。