目录
2.用 BeautifulSoup 来解析和获取我们想要的内容块
在爬取网站之前,我们首先要找到我们想要爬取的网站地址以及想爬取这个网页上的哪些信息。以上面这张图为例,我们想爬取这个网站上显示的城市天气情况以及时间(图中红框处)。对此我们需要先获得这个网站的网址(第一行已给出网站网址)。知道这个网站的地址后,我们可以通过python先将整个网页的信息爬取下来,然后在一步步的抽取我们需要的信息。具体步骤如下:
1.首先先找到所要爬取数据的网站,导入需要的包和模块
import urllib.request as urlrequest # 通过url.request 返回网页内容
weather_url='http://forecast.weather.gov/MapClick.php?lat=37.77492773500046&lon=-122.41941932299972' # 输入网址
web_page=urlrequest.urlopen(weather_url).read() # 读取网址
print(web_page) # 打印网址
运行这段程序后,我们就可以获得这个网页的全部源代码。