Python 小小爬虫练手,爬取自己的IP
import re
import urllib.request
url="http://2020.ip138.com/ic.asp"
data=urllib.request.urlopen(url).read().decode('gb2312','ignore')
pat='<body style="margin:0px"><center>(.*?)</center>'
ip_address=re.compile(pat,re.S).findall(data)
print(ip_address)
真的是一个特别小的爬虫,仅仅显示自己的IP地址以及网络所属地,爬虫一定要先观察网页的编码,否则,痛不欲生,以这个爬虫爬取的网站来看,网页编码格式为gb2312,因此,爬虫指定了编码,要取得数据因为只有一行,因此,正则匹配两端保留,中间挖空,括号保留就可以了。