从网页中提取文本,使用 Perl/Python 进行处理,然后使用添加链接重建页面



我正在构建一个 Web 应用程序,该应用程序处理网页中的文本,添加指向某些实体的链接,然后完全按原样重新显示页面,但添加了一些链接。我的服务器端代码是Perl和Python的,我目前正在使用HTML::P arser从页面中提取文本。我可以毫无问题地清理标记、提取和处理文本,但我想完全按原样显示原始页面,只是在以前未链接的文本中添加了一些链接。

我希望找到重新显示完全相同页面的最佳方法,并在文本中的某些单词或短语中添加链接。所有原始标记都应完全保留在提取文本之前的状态。

我已经彻底搜索了,但我找不到这个问题的精确解决方案。任何帮助将不胜感激。

我知道Python有一个用于打开网页的模块,称为urllib:

import urllib
url = 'https://www.google.com/'
page = urllib.urlopen(url)
print page.read()    
#page.read is the url's source code, so you would print the source  code here. 

你也可以像这样用python保存一个新的HTML文件:

page = page.read()
file = open('url.html', 'w')
file.writelines(page)
file.close()

在这两者之间,您可以修改 html 源代码。请记住,如果您不弄清楚如何保存页面正在使用的文件,网页看起来会很愚蠢。希望这有帮助。

最新更新