Regex在预处理过程中没有从文本数据中删除网站



我正在进行文本预处理,在我的文本中有一些网站。我想删除这些,但我做不到。

以下是示例文本:

\n\n万维网(www(\n\n链接的所有文档的名称通过互联网上的超链接;经常用作最近26年。\n\n\n\n\n\n\n24\x2\x80\x83\twww.sicherheitskultur.at,信息安全词汇表\n\n25\xe2\x80\x83\t文本来源(部分(:KS\xc3\x96:网络风险矩阵-词汇表\n\n26\x2\x80\x83\twww.sicherheitskultur.,,信息安全词汇表

网站可见(粗体(,我想删除这些网站。

我尝试过一个代码(来自StackOverflow的Python代码,用于从字符串中删除HTML标记(,但它并没有删除这些网站。

以下是代码:

def remove_web(text):
cleanr = re.compile('<.*?.*#>')
text = re.sub(cleanr, '', text)
return text

提前感谢!

因此,如果您只想删除这个特定的URL,可以使用以下regex:

www.[a-z]+.at

(采用David Amar的解决方案。(

www(.w+)+

解释:-首先它读取www-然后至少有一个这样的块:一个点+一些文本(字母、数字、不需要的(

要匹配url中的更多字符(例如hypens(,请将\w替换为类似[a-zA-Z0-9_]的字符集,例如

最新更新