在 Python 中使用 Beautifulsoup4 解析 HTML 信息



我正在和一个朋友一起做一个python项目,我们想做一些东西,http://projecteuler.net/problem 下载页面并得到你选择的问题,然后像这样打印回来:

欧拉项目问题7:100001个素数 通过列出前六个素数:2、3、5、7、11 和 13,我们可以看到第 6 个素数是 13。

What is the 10 001st prime number?

例如,你会做一些像Python script_name.py 7这样的事情,它会打印出^^。

一直在尝试找到多种方法来做到这一点,但我不明白 beautifulsoup4 是如何工作的。 如果您有脚本,解释脚本的工作原理也会有所帮助

谢谢!

这应该可以帮助您入门:

import sys
import urllib2
from bs4 import BeautifulSoup
problem_url  = "https://projecteuler.net/problem={}".format(sys.argv[1])
problem_page = urllib2.urlopen(problem_url)
soup = BeautifulSoup(problem_page.read())
problem_text = soup.find("div", {"class": "problem_content"}).text
print problem_text

用法:

$ ./euler.py 4

输出:

回文数的两种读法相同。由两个 2 位数字的乘积制成的最大回文是 9009 = 91 × 99。 找到由两个 3 位数字的乘积制成的最大回文。

最新更新