Skip to content

yuweida/python-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 

Repository files navigation

python-spider

这是我的python爬虫笔记 Beautifulsoup 使用

<textarea> = tag<> </textarea>

BeautifulSoup 的 a=soup.find_all() a=soup.selector() 返回的是列表 a[0] 返回tag 再用tag.attrs 返回字典 字典包含 tag的属性 tag.get("src") 获取属性
tag>.get_text() 获取tag文本
soup.find_all("div",class_="")
soup.select(xpath,Css selector) Css格式中的div和>中的空格一定不能少 不然无法识别 爬去失败 (> div > div )
两者不能混用

tag.stripped_strings 获取标签下所有字标签的内容
list(tag.stripped_strings) 将其列表化

<textarea>a = soup.select("img[width="200"]")</textarea>

图片下载到本地的方法


url = http://wanzao2.b0.upaiyun.com/system/pictures/36202611/original/1464746641_813x2395.png #图片的url
respone = urllib2.urlopen(url) #下载图片
a= response.read() #读取图片信息
f=open("name.png","wb") #创建空白 图片
f.write(f) #将图片的信写入 图片中

About

这是我的python爬虫笔记

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages