自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 代理 IP 技术全方位详解与实战指南

随着网络爬虫和数据采集需求不断增长,代理 IP 成为绕过反爬虫限制的重要工具。然而,代理 IP 的使用不仅关乎效率,更涉及安全与合规风险。本指南全面阐述了代理 IP 的安全规范使用原则,强调选择可信赖的代理服务商、采用加密传输(HTTPS/TLS)保护数据隐私、防范中间人攻击和恶意代理威胁。结合身份认证和访问权限控制,保障代理资源的安全使用。同时,遵循相关法律法规,合理管理和使用代理,避免非法抓取和数据泄露风险。通过科学的代理池设计、动态健康检测和智能调度,实现高效稳定的爬取效果与安全防护并重。安全规范的代

2025-08-09 22:04:40 822

原创 用模拟数据完整演示Python数据分析实战:基于NumPy和pandas的详解

本文以Python的NumPy和pandas为核心工具,完整演示了数据分析11个关键环节:从模拟销售数据生成开始,逐步进行数据观察、清洗(缺失值处理)、类型转换、筛选排序、分组聚合等操作,并展示了透视表、时间序列分析、数据合并等高级技巧,最后通过可视化呈现统计结果。每个步骤配有详细代码说明,帮助读者系统掌握从数据准备到分析挖掘的全流程方法,为实际业务决策提供数据支持。

2025-08-08 13:08:55 965

原创 爬虫封装的两种策略:函数式 vs 面向对象模块化的系统对比

本文对比了Python爬虫开发的两种封装方式:函数式封装和面向对象+模块化封装。函数式封装采用线性结构,将各步骤拆分为独立函数,适合初学者和小型项目,具有简洁直观的特点,但可扩展性和复用性较差。面向对象+模块化封装通过拆分功能模块(配置、工具、存储、爬虫类等),提高了代码的可维护性和扩展性,适合中大型项目,虽然学习门槛较高但长期收益显著。建议初学者从函数式入手,逐步过渡到模块化结构,以构建更专业的爬虫系统。

2025-08-06 14:39:31 640

原创 使用 Python 异步爬虫抓取豆瓣电影Top250排行榜

本文介绍了使用Python异步编程框架asyncio和aiohttp构建高效爬虫的方法。通过分析豆瓣电影Top250网站结构,详细讲解了如何实现并发请求控制(使用Semaphore)、异步数据抓取和XPath解析。文章包含完整的代码实现,包括主控制器、任务调度和性能测量,并展示了250条电影数据的抓取结果。相比传统同步爬虫,该方案具有非阻塞I/O、高并发和低资源消耗等优势。最后还提出了异常处理、超时控制、数据持久化等改进方向,为开发者构建生产级异步爬虫提供了实用指导。

2025-08-05 09:44:25 982

原创 正则表达式(re模块)超详细讲解

本文介绍了Python中re模块的核心功能与正则表达式应用技巧。教程从基础匹配(re.search)、批量提取(re.findall)到高级功能分组匹配、命名分组、懒惰匹配等,系统讲解了12个实用知识点。重点解析了贪婪匹配与懒惰匹配的区别,通过HTML标签提取等案例展示了非贪婪匹配(*?)的实际应用。文章还提供了正则表达式功能对照表,涵盖数字匹配、字符集、边界控制等常见场景,并推荐使用re.compile()优化性能。最后强调正则表达式在数据处理、日志分析等领域的重要性,建议通过实践掌握这一文本处理利器。

2025-08-04 21:06:50 642

原创 python aiohttp使用cookie

本文介绍了在aiohttp中使用Cookie的三种方法:1)通过cookies参数直接设置;2)自动接收并复用服务器返回的Cookie;3)手动设置请求头(不推荐)。文章详细讲解了如何从浏览器导出Cookie并转换为Python字典,以及如何实现模拟登录后自动携带Cookie的功能。此外还提供了Cookie持久化存储的进阶方法,并强调异步爬虫需要注意控制并发量。aiohttp的ClientSession默认启用cookie_jar,可自动管理Cookie,建议使用推荐的第一种方式设置Cookie。

2025-08-03 12:59:48 523

原创 XPath 语法与爬虫实战总结指南

XPath是用于XML/HTML文档数据定位的查询语言,广泛应用于网页爬虫开发。本文提供了XPath基础语法速查表,包括节点选择、属性提取等核心表达式;通过11个典型示例演示文本内容、链接地址、列表项等常见元素的提取方法;最后给出一个综合案例,展示如何从完整HTML页面中提取标题、菜单、图片等各类数据。XPath具有灵活性强、定位精准的特点,建议使用相对路径和模糊匹配提高代码健壮性,适用于新闻、电商等各类网页数据抓取场景。掌握XPath能显著提升爬虫开发效率。

2025-08-02 23:25:04 1327

原创 使用 lxml.html 的 CSS 选择器提取教程

本文介绍了使用Python的lxml.html库配合CSS选择器提取HTML内容的方法,涵盖12种常用选择器:包括标签、类、ID、子元素、后代、属性、结构(nth-child)、多类、相邻兄弟、通配符等选择器。每种选择器都配有HTML示例和对应的Python代码,展示如何提取特定元素内容。总结表格对比了各选择器的语法和使用场景,适用于网页爬虫、数据抓取等需求。lxml.html库性能优越,CSS选择器语法简单直观,特别适合前端开发者和爬虫初学者使用,也可与XPath结合进行更复杂的数据提取。

2025-08-02 21:22:45 714

原创 深入解析 Scrapy 爬虫框架:模块组成与实战应用全解

本文系统介绍了Python爬虫框架Scrapy的核心模块与使用方法。Scrapy项目包含spiders(爬虫逻辑)、items(数据模型)、pipelines(数据处理)、middlewares(请求/响应处理)等核心组件,通过settings统一配置。文章详细讲解了各模块功能,包括请求调度、异步下载、数据提取(CSS/XPath)、交互调试等关键技术,并介绍了分布式扩展方案。Scrapy框架具有模块化设计、高性能和可扩展性特点,适合构建各类爬虫系统,掌握其内部机制对提升爬虫开发效率具有重要意义。

2025-08-01 16:58:56 1236

原创 [特殊字符]️ 网络爬虫基础知识全面介绍(涵盖10+方面)

爬虫基础介绍

2025-07-31 09:47:25 601

原创 全面认识 Playwright:现代网页自动化与数据采集利器

全面认识 Playwright

2025-07-29 11:05:03 816

原创 使用 Playwright 自动化采集京东联盟高佣商品信息

使用 Playwright 自动化采集京东联盟高佣商品信息

2025-07-28 21:20:40 632

原创 小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地

小红书用户信息收集:使用 Python + Aiohttp 异步提取小红书号与 IP 属地

2025-07-27 09:40:30 820

原创 猫眼电影字体文件实时获取 .woff

解析猫眼票房页面中的字体反爬链接 —— Python 实战讲解在爬取猫眼票房数据时,我们常会遇到「数字乱码」的问题,这是因为页面使用了动态字体加密(woff字体)来对数字进行混淆。为了破解这些反爬手段,我们首先需要获取页面中引用的字体文件链接(.woff),这篇文章将带你逐步实现这个目标。

2025-07-25 09:27:39 916

异步爬虫抓取豆瓣电影Top250排行榜

本项目是一个基于 Python 的异步网络爬虫,用于抓取 豆瓣电影 Top250 排行榜前 10 页的电影信息,包括: 电影名称 电影评分(含评价人数) 详情页地址 通过使用 asyncio + aiohttp 实现并发请求,显著提升爬取效率,适用于 I/O 密集型的网页爬取任务。 本项目仅用于技术学习与教学演示,不得用于商业或非法用途。如需采集真实数据请提前获取目标网站授权。

2025-08-05

JD联盟高佣采集助手代码

本脚本基于 Playwright 和 MongoDB 实现了自动化采集 京东联盟 平台上的商品信息,主要包括以下功能: 自动打开浏览器并登录(使用用户数据缓存) 自动点击“定向高佣”商品筛选 滚动页面并提取商品数据: 商品标题 商品店铺 到手价 推广佣金比例 商品链接 自动翻页,采集多页商品 自动去重(通过 MD5 商品标题生成唯一 ID) 采集结果写入本地 MongoDB 数据库

2025-07-28

轻量级批量图片压缩代码(支持 JPG / PNG / WEBP)

SlimPic 是一个基于 Python 和 Pillow 库开发的小型图片压缩工具,支持批量压缩指定目录下的常见图片格式。它适合摄影师、电商运营、前端工程师或内容创作者在不损失明显画质的前提下,快速缩小图片体积,加快加载速度或便于上传传输。 支持批量处理 JPG、PNG、JPEG、WEBP 等常见图片格式 自动调整图片宽度,超出时按比例缩放(默认最大宽度 800 像素) 支持自定义压缩质量(60~85 区间画质较优) 自动保留原始目录结构,输出至指定路径 兼容 Pillow 新旧版本(自动适配抗锯齿模式)

2025-07-30

小红书搜索页笔记链接采集工具(Playwright + MongoDB)

本工具是一个基于 Playwright 异步 API + MongoDB 数据存储 实现的小红书爬虫脚本,主要功能是: 自动化搜索指定关键词,并获取搜索结果页面的全部笔记链接,剔除广告内容,并保存到 MongoDB 数据库中。 适用场景: 想采集小红书笔记链接,作为后续评论/用户分析的基础数据源; 希望使用真实浏览器模拟人类行为,绕过简单的反爬虫机制; 适合已经登录过小红书网页端,具备登录态(用于访问更多笔记)的用户; 熟悉 Python 的中级开发者,具备 MongoDB 基础知识。

2025-07-29

基于 Playwright 的淘宝商品信息自动采集脚本

本项目是一个基于 Python 和 Microsoft Playwright 的淘宝商品信息爬虫脚本,能够自动化完成以下任务: 模拟真实用户打开淘宝网页 自动搜索指定商品关键词(如“手机”) 提取每页商品的标题、价格、店铺名称与主图链接 自动翻页,连续采集多页数据 将采集到的信息保存为 CSV 文件,方便后续数据分析或可视化展示 该脚本适合电商数据分析、竞品监控、价格趋势研究等场景。

2025-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除