>我目前正在创建一个工具,该工具扫描网站的URL并将关键字作为列表返回。例如 google.com/images,该工具应给出: {"谷歌", "图像"} 我知道如何过滤掉.com部分,但我遇到了无法再次拆分拆分部分的问题。所以我最终得到了第一次分裂的结果。如何再次拆分这些部分?
第一run split(".") -> {"google", "com/images"}
第二run split("/") -> {"google", "com", "images"}
因为这样我就可以过滤掉像.com部分这样的东西。我正在用Python编写这个,这是我的代码atm。
首先是错误:
" 属性错误: '列表' 对象没有属性 'split' ">
所以问题是这是一个列表对象,我无法再次拆分它。
现在的代码
url_content = input('Enter url: ')
url_split1 = url_content.split('.')
url_split2 = url_split1.split('/')
url_split3 = url_split2.split('-')
url_split4 = url_split3.split('&')
filtered = {'com', 'net'}
print(url_split4)
for key in url_split4:
if key not in filtered:
print(key)
您可以使用替换:
url_content = input('Enter url: ').replace('/','.').replace('-','.').replace('&','.')
然后拆分一次:
url_split1 = url_content.split('.')
您可以使用 python 的内置正则表达式库,如下所示。
import re
re.split('.|&|-|/', url_content)
或者您可以使用字符串替换方法。
url_content.replace(".", "/").replace("&", "/").replace("-", "/").split("/")