将网站网址拆分为关键字,可多次拆分

  • 本文关键字:拆分 关键字 网站 python
  • 更新时间 :
  • 英文 :


>我目前正在创建一个工具,该工具扫描网站的URL并将关键字作为列表返回。例如 google.com/images,该工具应给出: {"谷歌", "图像"} 我知道如何过滤掉.com部分,但我遇到了无法再次拆分拆分部分的问题。所以我最终得到了第一次分裂的结果。如何再次拆分这些部分?

第一run split(".") -> {"google", "com/images"}

第二run split("/") -> {"google", "com", "images"}

因为这样我就可以过滤掉像.com部分这样的东西。我正在用Python编写这个,这是我的代码atm。

首先是错误:

" 属性错误: '列表' 对象没有属性 'split' ">

所以问题是这是一个列表对象,我无法再次拆分它。

现在的代码

url_content = input('Enter url: ')
url_split1 = url_content.split('.')
url_split2 = url_split1.split('/')
url_split3 = url_split2.split('-')
url_split4 = url_split3.split('&')
filtered = {'com', 'net'}
print(url_split4)
for key in url_split4:
if key not in filtered:
print(key)

您可以使用替换:

url_content = input('Enter url: ').replace('/','.').replace('-','.').replace('&','.')

然后拆分一次:

url_split1 = url_content.split('.')

您可以使用 python 的内置正则表达式库,如下所示。

import re
re.split('.|&|-|/', url_content)

或者您可以使用字符串替换方法。

url_content.replace(".", "/").replace("&", "/").replace("-", "/").split("/")

最新更新