将网站网址拆分为关键字，可多次拆分

>我目前正在创建一个工具，该工具扫描网站的URL并将关键字作为列表返回。例如 google.com/images，该工具应给出： {"谷歌"， "图像"} 我知道如何过滤掉.com部分，但我遇到了无法再次拆分拆分部分的问题。所以我最终得到了第一次分裂的结果。如何再次拆分这些部分？

第一run split(".") -> {"google", "com/images"}

第二run split("/") -> {"google", "com", "images"}

因为这样我就可以过滤掉像.com部分这样的东西。我正在用Python编写这个，这是我的代码atm。

首先是错误：

" 属性错误： '列表' 对象没有属性 'split' ">

所以问题是这是一个列表对象，我无法再次拆分它。

现在的代码

url_content = input('Enter url: ')
url_split1 = url_content.split('.')
url_split2 = url_split1.split('/')
url_split3 = url_split2.split('-')
url_split4 = url_split3.split('&')
filtered = {'com', 'net'}
print(url_split4)
for key in url_split4:
if key not in filtered:
print(key)

您可以使用替换：

url_content = input('Enter url: ').replace('/','.').replace('-','.').replace('&','.')

然后拆分一次：

url_split1 = url_content.split('.')

您可以使用 python 的内置正则表达式库，如下所示。

import re
re.split('.|&|-|/', url_content)

或者您可以使用字符串替换方法。

url_content.replace(".", "/").replace("&", "/").replace("-", "/").split("/")

相关内容

最新更新

热门标签：