Regex在预处理过程中没有从文本数据中删除网站

我正在进行文本预处理，在我的文本中有一些网站。我想删除这些，但我做不到。

以下是示例文本：

\n\n万维网(www(\n\n链接的所有文档的名称通过互联网上的超链接；经常用作最近26年。\n\n\n\n\n\n\n24\x2\x80\x83\twww.sicherheitskultur.at，信息安全词汇表\n\n25\xe2\x80\x83\t文本来源(部分(：KS\xc3\x96:网络风险矩阵-词汇表\n\n26\x2\x80\x83\twww.sicherheitskultur.，，信息安全词汇表

网站可见(粗体(，我想删除这些网站。

我尝试过一个代码(来自StackOverflow的Python代码，用于从字符串中删除HTML标记(，但它并没有删除这些网站。

以下是代码：

def remove_web(text):
cleanr = re.compile('<.*?.*#>')
text = re.sub(cleanr, '', text)
return text

提前感谢！

因此，如果您只想删除这个特定的URL，可以使用以下regex:

www.[a-z]+.at

(采用David Amar的解决方案。(

www(.w+)+

解释：-首先它读取www-然后至少有一个这样的块：一个点+一些文本(字母、数字、不需要的(

要匹配url中的更多字符(例如hypens(，请将\w替换为类似[a-zA-Z0-9_]的字符集，例如

相关内容

最新更新

热门标签：