
python爬虫
从基础到入门,爬虫书写需求,格式,实战代码,项目案例。
大大枫free
分析与记录
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用scrapy实现对腾讯招聘岗位抓取
忙碌一周多终于算是过来,这个时间中一直想写点什么,但是又不知道写点什么,刚好前一段时间有个朋友说帮忙爬点职位信息,这不今天就试着用scrapy框架去腾讯家溜达了一圈,同时也用多线程试了下,不得不说scrapy是真快,闲话不说,干货走起!!! 目标:腾讯招聘职位信息中的:名称(job_name)、类别(job_type)、职责(job_duty)、要求(job_require)、地址(job_address)、时间(job_time) 要求存入MySQL数据库 和CSV文件 谷歌浏览器中打开百度然后没谁的搜索原创 2020-06-13 12:49:17 · 639 阅读 · 0 评论 -
写爬虫时候遇到字题编码处理方法
最近在接到一个爬虫任务,遇到有意思的事情了,现在爬虫与反爬虫直接的斗争越来越有意思了,那些写前端的大佬们开始走心了,这就让我们这些写爬中的兄弟们有点难受了,但是呢?作为一名敲代码的,特别是搞spider的同志,我们只能与反爬做斗争想办法解决问题完成任务滴。闲话少说,开始我们今天的正题。 任务需求:爬取某网站的小说,爬小说就算了吧,还要爬取指定网站的,这个就不好玩了,这个指定网站有点东西的,哎,爬这个指定网站的小说具体干啥俺也不知道,俺也不敢问,只能埋头默默的写爬虫。 在爬取得过程中遇到了:** 小说中的主人原创 2020-05-28 13:18:35 · 404 阅读 · 0 评论 -
scrapy shell使用方法(十)
回顾(九) settings.py常用变量 【1】settings.py中常用变量 2.1) 设置日志级别 LOG_LEVEL = '' 2.2) 保存到日志文件(不在终端输出) LOG_FILE = '' 2.3) 设置数据导出编码(主要针对于json文件) FEED_EXPORT_ENCODING = 'utf-8' 2.4) 设置User-Agent USER_AGENT = '' 2.5)原创 2020-05-19 21:36:00 · 485 阅读 · 0 评论 -
scrapy框架---带你飞向爬虫路(九)
回顾(八)系统学习出门左转一到八 scrapy框架 五大组件+工作流程+常用命令 【1】五大组件 1.1) 引擎(Engine) 1.2) 爬虫程序(Spider) 1.3) 调度器(Scheduler) 1.4) 下载器(Downloader) 1.5) 管道文件(Pipeline) 1.6) 下载器中间件(Downloader Middlewares) 1.7) 蜘蛛中间件(Spider Middlewares) 【2】工作流程原创 2020-05-18 21:37:23 · 311 阅读 · 0 评论 -
selenium+phantomjs/chrome/firefox 的操作(八)
python爬虫学习(七)回顾 selenium+phantomjs/chrome/firefox 设置无界面模式(chromedriver | firefox) options = webdriver.ChromeOptions() options.add_argument('--headless') browser = webdriver.Chrome(options=options) browser.get(url) browser执行JS脚本 browser.execute_script原创 2020-05-17 19:49:51 · 484 阅读 · 0 评论 -
python爬虫学习(七)
python爬虫学习(六)回顾 多线程爬虫 思路 【1】将待爬取的URL地址存放到队列中 【2】多个线程从队列中获取地址,进行数据抓取 【3】注意获取地址过程中程序阻塞问题、线程锁问题 3.1) 方式一 while True: lock.acquire() if not q.empty(): url = q.get() lock.release() ... ... e原创 2020-05-15 23:05:50 · 310 阅读 · 0 评论 -
python爬虫学习(六)
python爬虫学习(五)回顾 Ajax动态加载数据抓取流程 【1】F12打开控制台,执行页面动作抓取网络数据包 【2】抓取json文件URL地址 2.1) 控制台中 XHR :找到异步加载的数据包 2.2) GET请求: Network -> XHR -> URL 和 Query String Parameters(查询参数) 2.3) POST请求:Network -> XHR -> URL 和 Form Data json模块 【1】抓取的json原创 2020-05-14 21:55:22 · 779 阅读 · 0 评论 -
python爬虫学习(五)
python基础爬虫(五) Python爬虫基础(四)回顾 requests.get()参数 【1】url 【2】params -> {} :查询参数 Query String 【3】proxies -> {} proxies = { 'http':'http://1.1.1.1:8888', 'https':'https://1.1.1.1:8888' } 【4】auth -> ('tarenacode','code_2013') 【5】原创 2020-05-13 20:56:29 · 333 阅读 · 0 评论 -
python爬虫学习(三)
x# Python爬虫基础(三) Python爬虫基础(二)回顾 爬取思路 1、先确定是否为动态加载网站 2、找URL规律 3、正则表达式 4、定义程序框架,补全并测试代码 数据持久化 - csv import csv with open('xxx.csv','w') as f: writer = csv.writer(f) writer.writerow([]) writer.writerows([(),(),()]) 数据持久化 - MySQL import pymysql # __i原创 2020-05-12 22:38:55 · 608 阅读 · 0 评论 -
python爬虫学习(四)
Python基础爬虫(三)回顾 请求模块总结 urllib库使用流程 # 编码+拼接URL地址 params = { '':'', '':'' } params = urllib.parse.urlencode(params) url = baseurl + params # 请求 request = urllib.request.Request(url,headers=headers) response = urllib.request.urlopen(request) html =原创 2020-05-12 22:55:24 · 3469 阅读 · 0 评论 -
python爬虫学习(二)
python基础爬虫(一) 回顾 请求模块(urllib.request) req = request.Request(url,headers=headers) res = request.urlopen(req) html = res.read().decode('utf-8','ignore') with open('xxx.txt','w',encoding='utf-8') as f: f.write(html) 编码模块(urllib.parse) 1、urlencode({dict}原创 2020-05-10 23:43:57 · 465 阅读 · 3 评论 -
python爬虫学习(一)
python爬虫学习(一) 网络爬虫概述 # 1. 定义 1)网络蜘蛛、网络机器人,抓取网络数据的程序 2)其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好 # 2. 爬取数据的目的 1)获取大量数据,用来做数据分析 2)公司项目的测试数据,公司业务所需数据 # 3. 企业获取数据方式 1)公司自有数据 2)第三方数据平台购买(数据堂、贵阳大数据交易所) 3)爬虫爬取数据 # 4. Python做爬虫优势 1)Python :请求模块、解析模块丰富成熟,强大的Scrapy网络原创 2020-05-10 18:48:33 · 375 阅读 · 0 评论