我从URL中获取了一些数据,我删除了标签,所以网页文本仍然存在,所以如何提取出我要求的问题的答案
为例:
输入比;如何赚钱?
获取告诉我如何这样做的文章(id did that)
在我删除标签 之后,用算法从文本中获得问题的答案
class online:
def __init__(self,find) -> None:
self.search = find
self.urllist = []
def get_url(self):
for i in search(self.search,num_results=10):
self.urllist.append(i)
return self.urllist
def load_html_tags(self):
obj = data("").load_data_once("data/htmlTags.json")
return obj
def google_scrape(self) -> str:
thepage = requests.get(self.get_url()[randint(0,9)]).content
soup = BeautifulSoup(thepage,"html.parser")
for data in soup(["style","script","head","form","nav","button"]):
data.decompose()
return ' '.join(soup.stripped_strings)
接下来呢?
这是自然语言处理,对我来说,在单个stackoverflow响应中完成它要高级得多。谷歌的搜索引擎如此受欢迎是有原因的,那是因为像这样的事情是一项艰巨的任务。
假设你想写一个算法,我可能会从问题中搜索关键字,并在发现关键字时返回上面/下面的几个单词。