
爬虫和逆向教程

文章平均质量分 94
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到案例实战,逐步成为爬虫领域的佼佼者。
有任何问题都可以私聊博主沟通~
优惠券已抵扣
余额抵扣
还需支付
¥39.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
数据知道
IT技术博主,博主会持续更新专栏文章,欢迎关注和订阅文章博客,欢迎私信和博主交流技术,欢迎关注公众号:数据知道的成长之路。如有需要请站内私信或者联系VX名片(ID:data_know)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫和逆向教程-专栏介绍和目录
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到高级实战,助你在数据的海洋中畅游,挖掘出有价值的信息。通过本专栏的学习,你将具备独立开发和优化爬虫程序的能力,及逆向分析能力和项目开发能力,成为爬虫领域的佼佼者。原创 2025-02-28 20:26:59 · 10352 阅读 · 4 评论 -
python反爬:一文掌握 undetected-chromedriver 的详细使用(可通过机器人验证)
摘要: undetected-chromedriver 是一款优化的 Selenium Chromedriver 补丁工具,可绕过 Distill Network/DataDome 等反爬服务。其核心功能包括移除自动化标识(如 navigator.webdriver)、自动匹配 Chrome 版本、支持无头/远程调试模式。通过自定义启动参数、伪装浏览器指纹(如修改 WebGL/屏幕参数)、模拟人类操作(随机延迟、鼠标移动)及代理配置,有效规避检测。工具提供异步模式(Python 3.7+)和异常处理机制,并原创 2025-07-30 20:15:28 · 1056 阅读 · 0 评论 -
爬虫验证码处理:ddddocr 的详细使用(通用验证码识别OCR pypi版)
DdddOcr是一个基于深度学习的开源验证码识别工具,支持数字、字母、滑块、点选等多种验证码类型,识别准确率达98%以上。本文详细介绍了DdddOcr的安装方法、核心优势与使用建议,包括基本使用(数字字母识别、复杂背景处理、滑块/点选验证码)和高级用法(自定义模型、批量识别优化、与Selenium/Scrapy集成)。提供了完整的爬虫集成案例和滑块验证码识别示例,并针对常见问题给出解决方案。该工具具有模型体积小(<10MB)、推理速度快(<50ms/张)等特点,能有效解决大多数爬虫验证码问题。原创 2025-07-30 20:00:46 · 413 阅读 · 0 评论 -
爬虫自动化:一文掌握 PyAutoGUI 的详细使用
本文详细介绍了PyAutoGUI自动化库的使用方法,包括安装配置、基础操作和高级功能。主要内容涵盖鼠标键盘控制、屏幕操作、图像识别定位等核心功能,并提供了自动登录、文件重命名、表单填写等实战案例。文章还针对常见问题如跨平台兼容性、识别失败等提供了解决方案,适合自动化测试、GUI操作等场景的应用开发。通过PyAutoGUI可以快速实现系统级输入模拟,提高工作效率。原创 2025-07-29 20:14:58 · 610 阅读 · 0 评论 -
爬虫逆向:一篇文章掌握 Hopper 的详细使用(macOS 和 Linux 反汇编程序:对可执行文件进行静态分析)
Hopper是一款macOS/Linux平台下的二进制反汇编和逆向分析工具,支持ARM/x86等多种架构。该工具能够将二进制文件转换为可读的汇编指令和伪代码(F5键生成类C伪代码),并提供流程图视图、十六进制编辑和动态调试(与LLDB集成)等功能。界面分为符号列表区、检查器区和代码显示区,支持通过标签和文本过滤符号。Hopper自动分析文件类型(代码/数据/ASCII等),并允许手动修改。关键功能包括修改二进制文件、Python脚本扩展、控制流图(CFG)分析等。工具还提供导航堆栈、段/节查看、符号标记等辅原创 2025-07-17 08:54:03 · 1558 阅读 · 0 评论 -
Python爬虫:搜狗翻译详解(代码可直接运行)
本文介绍了如何通过Python爬虫调用搜狗翻译API。首先通过抓包分析发现翻译请求需传加密参数s(MD5加密)和动态cookie中的FQV值。FQV可通过请求首页获取,加密参数由固定字符串拼接原文生成。原创 2025-06-22 12:13:04 · 3552 阅读 · 0 评论 -
python爬虫:grequests的详细使用(基于gevent和requests的异步HTTP请求库)
grequests 是一个基于 gevent 和 requests 的异步 HTTP 请求库,它允许你使用非阻塞 I/O 来并发执行多个 HTTP 请求,它允许你以非常高效的方式发送大批量HTTP请求。。相比普通的 requests 库(同步方式),grequests 能显著提升爬虫或 API 客户端的性能,尤其是在需要发起大量请求时。原创 2025-06-05 12:27:34 · 3433 阅读 · 0 评论 -
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
Newspaper3k 是一个用于新闻网站文章抓取和解析的Python库。它可以帮助你从新闻网站中提取文章标题、作者、发布时间、正文内容等信息。原创 2025-06-04 21:11:56 · 3638 阅读 · 0 评论 -
Python爬虫:trafilatura 的详细使用(快速提取正文和评论以及结构,转换为 TXT、CSV 和 XML)
Trafilatura是一个强大的开源Python工具,专为高效提取网页结构化内容而设计。它支持从URL或HTML文件中智能提取正文,过滤干扰内容,并提供多种输出格式(TXT、JSON、XML等)。原创 2025-06-04 21:02:22 · 3458 阅读 · 0 评论 -
数据解析:一文掌握Python库 lxml 的详细使用(处理XML和HTML的高性能库)
本文介绍了Python高性能库lxml在XML和HTML处理中的应用。lxml基于C语言编写,具有速度快、API友好的特点,适合处理结构化数据。原创 2025-06-03 12:50:18 · 3651 阅读 · 0 评论 -
Python库CloudScraper详细使用(绕过 Cloudflare 的反机器人页面的 Python 模块)
CloudScraper是一个专门用于绕过Cloudflare反机器人保护的Python库,它基于requests库构建,能够处理Cloudflare的5秒盾、WAF和人机验证等防护机制。原创 2025-06-02 19:19:34 · 4439 阅读 · 0 评论 -
python爬虫:Ruia的详细使用(一个基于asyncio和aiohttp的异步爬虫框架)
Ruia是一个基于asyncio和aiohttp的Python异步爬虫框架,设计简洁高效,支持快速开发高性能爬虫。框架核心模块包括Request(异步网络请求)、Response(统一响应处理)、Item(数据提取规则)和Spider(爬虫入口)。通过CSS Selector/XPath选择器和Field字段(AttrField、TextField等)实现网页数据抓取,支持单/多目标数据提取。其异步特性可显著提升爬取速度,同时提供中间件机制和钩子函数扩展功能。原创 2025-06-02 16:42:01 · 3510 阅读 · 0 评论 -
Python爬虫:AutoScraper 库详细使用大全(一个智能、自动、轻量级的网络爬虫)
AutoScraper是一款智能Python网页抓取库,可自动学习网页结构并提取数据,适合快速开发爬虫工具。其核心功能包括自动训练模型、保存/加载规则、分组数据提取和自定义规则设置。安装简单(pip install autoscraper),基础使用包含构建模型、抓取相似/精确结果等步骤。高级功能支持多规则抓取、分页处理、代理设置和异常处理。实战案例涵盖电商商品、新闻文章等内容抓取,并提供了用户代理轮换、请求缓存等优化技巧。注意遵守robots.txt规则,合理设置请求间隔,使用代理防止封禁,确保抓取行为的原创 2025-06-01 21:12:36 · 4323 阅读 · 0 评论 -
Python中scapy库详细使用(强大的交互式数据包操作程序和库)
Scapy是一个强大的Python网络工具,可用于数据包构造、发送、嗅探和分析。本文详细介绍了Scapy的核心功能,包括:基础数据包构造(IP/TCP/UDP/DNS等)、发送与接收(单次/多次发送、带响应接收)、高级数据包嗅探(BPF过滤、回调处理)、网络扫描技术(ARP扫描、TCP端口扫描)以及SYN洪水攻击示例。同时涵盖高级功能如数据包重放、自定义协议和多线程嗅探,并提供了实用技巧(随机数据包生成、RTT测量)和一个完整的网络扫描器案例。原创 2025-06-01 20:59:43 · 3678 阅读 · 0 评论 -
Python 中 dpkt 库的详细使用指南(强大的 Python 数据包解析库)
dpkt 是一个功能强大的 Python 网络数据包解析库,支持解析和构造以太网、IP、TCP/UDP 等多种协议的数据包。其核心功能包括解析各层协议头部、读写 pcap 文件、构造自定义数据包及分析 HTTP 流量等。dpkt 提供简单易用的 API,适用于网络分析、安全研究和流量监控场景。优化技巧包括数据包过滤、批量处理和选择性解析以提高性能,常见问题如数据不完整或协议识别错误可通过异常处理和字段验证解决。典型应用场景涵盖协议分析、网络调试和自定义数据包生成。原创 2025-06-01 20:48:37 · 3784 阅读 · 0 评论 -
python爬虫:RoboBrowser 的详细使用
RoboBrowser是结合Requests与BeautifulSoup的轻量级Python爬虫库,无需浏览器驱动即可实现表单提交、数据抓取等网页自动化操作。文章详解其安装、基本用法(访问网页、元素查找、表单处理)和高级功能(文件上传、Cookies管理、代理设置),并通过登录网站、分页抓取等案例演示实战应用。虽然不支持JavaScript渲染,但凭借简单API和优秀性能,RoboBrowser非常适合静态页面爬取和快速开发,是替代Selenium的轻量化选择。原创 2025-06-01 20:27:45 · 3379 阅读 · 0 评论 -
python爬虫和逆向:百度翻译数据采集的几种方式
本文介绍了两种获取百度翻译数据的技术实现方式,并提供了相应的Python代码示例。第一种是通过百度翻译开放平台的官方API,步骤包括注册开发者账号、获取APP ID和密钥,并调用API接口。该方式完全合规,稳定可靠,但免费版有调用次数限制。第二种是通过逆向分析网页版百度翻译的网络请求,模拟其签名算法和参数构造,实现数据采集。该方式无需注册开发者账号,但可能涉及合规性问题。两种方式各有优缺点,开发者可根据需求选择合适的方法。原创 2025-05-21 20:07:16 · 5093 阅读 · 0 评论 -
开源免费抓包工具:ProxyPin 的详细使用
ProxyPin 是一款开源的 HTTP/HTTPS 抓包工具,支持 Windows、macOS 和 Linux、 Android、IOS平台,主要用于移动端和桌面端的网络请求调试。以下是详细使用:原创 2025-05-21 19:42:51 · 4878 阅读 · 0 评论 -
安卓应用层抓包通杀脚本 r0capture 详解
r0capture是一款基于Frida框架开发的安卓应用层抓包工具,能够绕过SSL Pinning等反抓包机制,支持HTTP/HTTPS等多种协议的流量捕获。其核心特性包括自动绕过证书固定、支持双模式注入、无root要求以及数据可视化。r0capture通过Java层和Native层的Hook技术,拦截并解密流量,适用于多种应用层框架和加固应用。工具的使用需要安装Python依赖和Frida环境,并配置设备端的frida-server。r0capture支持Spawn和Attach两种模式,能够实时监控流量原创 2025-05-18 12:18:41 · 4561 阅读 · 0 评论 -
爬虫逆向:一文掌握GDB工具的各种使用(爬虫开发中的调试利器)
GDB 是 GNU 项目中的开源调试工具,主要用于 C/C++ 程序的调试,但也支持其他多种编程语言。它是 Linux/Unix 系统下最常用的调试器,具有强大的功能和灵活性。在爬虫开发中,GDB也是一个强大的调试工具。# 创建pretty printerpythonend。原创 2025-05-01 09:38:45 · 6175 阅读 · 0 评论 -
【GDB】一文掌握 GDB 详细用法(GDB 命令速查)
GDB(GNU Debugger)是Linux/Unix系统下强大的命令行调试工具,用于分析程序运行时的内存状态、执行流程和故障定位。就会被压入栈中,栈帧包含了该函数的局部变量、参数、返回地址和其他信息,当函数执行完毕后,这个栈帧会被弹出栈并销毁。调用的函数如果存在全局变量、静态变量的修改,在函数返回后会恢复到调用之前的值,这两个调用不会影响程序的状态。显示运行时将要或已经传递给程序的参数。每当一个函数被调用时,一个新的栈帧。在启动进程前,添加环境变量。在启动进程前,清除环境变量。连接到正在运行的进程。原创 2025-03-28 13:57:05 · 6926 阅读 · 0 评论 -
高效爬虫:一文掌握 FunBoost 的各种使用(万能分布式函数调度框架)
FunBoost是分布式函数调度框架,支持5种并发模式,20+种消息中间件,30种任务控制功能。用途概念就是常规经典的 生产者 + 消息队列中间件 + 消费者 编程思想。有了这个框架,用户再也无需亲自手写操作进程、线程、协程的并发的代码了。有了这个框架,用户再也无需亲自手写操作redis rabbitmq socket kafka celery nameko了。funboost的功能是全面性重量级,用户能想得到的功能99%全都有;原创 2025-04-28 19:59:46 · 4876 阅读 · 2 评论 -
【爬虫】一文掌握 adb 的各种指令(adb备忘清单)
既 Android Debug Bridge,是 Google 的 Android SDK 中的一个命令行工具,可让您的计算机控制 Android 设备执行各种设备操作。您现在可以断开 USB 线缆使用。现在在某个端口重新启动。一起使用的一些最常见的命令及其用法。替换为您自己的应用程序包名称。例如,要显示优先级不低于。原创 2025-04-28 10:43:07 · 4746 阅读 · 0 评论 -
爬虫:一文掌握 crawlergo 的详细使用(用于网络漏洞扫描程序的强大浏览器爬虫)
crawlergo是一个使用模式进行URL收集的浏览器爬虫。它对整个网页的关键位置与DOM渲染阶段进行HOOK,自动进行表单填充并提交,配合智能的JS事件触发,尽可能的收集网站暴露出的入口。内置URL去重模块,过滤掉了大量伪静态URL,对于大型网站仍保持较快的解析与抓取速度,最后得到高质量的请求结果集合。原创 2025-04-23 17:48:08 · 5262 阅读 · 0 评论 -
爬虫反爬:一文掌握 BotBrowser 的原理和使用(能绕过很多验证码的指纹浏览器)
BotBrowser是使用经过修改的Chromium内核(修改Chromium的C++源代码)的隐形浏览器,可靠地绕过Cloudflare、Shape、PerimeterX、Datadome、Akamai、Kasada、hCaptcha和reCAPTCHA。BotBrowser是一个跨平台的自动化工具,它重新定义了web自动化。专为爬虫、RPA(机器人流程自动化)和 Web 测试设计。与 Puppeteer/Selenium 不同,它通过无头模式(Headless)和API 级控制。原创 2025-04-17 10:13:54 · 6898 阅读 · 0 评论 -
爬虫: 一文掌握 pycurl 的详细使用(更接近底层,性能更高)
PycURL 是 libcurl 的 Python 接口,是一个功能强大且高效的网络请求库,特别适合需要高性能 HTTP 客户端或需要访问 libcurl 高级功能的场景。libcurl支持HTTP、HTTPS、FTP、GOPHER、DICT、TFTP、TELNET和FILE等许多协议。pycurl是将libcurl封装成Python模块的结果,因此,它既可以在Python脚本中直接使用,也可以在动态状态下使用。安装 PycURL。原创 2025-04-14 19:10:58 · 5027 阅读 · 0 评论 -
爬虫:一文掌握 curl-cffi 的详细使用(支持 TLS/JA3 指纹仿真的 cURL 库)
curl_cffi是一个 Python 库,它通过 CFFI(C Foreign Function Interface)绑定提供了 libcurl 的功能,并增加了对抗 TLS 指纹检测的能力(如 JA3 指纹)。它提供了比标准pycurl更简单、更 Pythonic 的 API,同时保持了 libcurl 的强大功能。原创 2025-04-14 19:08:19 · 7324 阅读 · 0 评论 -
高效爬虫:一文掌握 Crawlee 的详细使用(web高效抓取和浏览器自动化库)
Crawlee:一个用于Python构建可靠爬虫的网络抓取和浏览器自动化库。提取AI、LLM、RAG或GPT的数据。从网站下载HTML、PDF、JPG、PNG和其他文件。适用于BeautifulSoup、Playwright和原始HTTP。头模式和无头模式。提供端到端的爬取和抓取服务,可以快速构建可靠的抓取工具。即使使用默认配置,您的爬虫程序也能像人类一样运行,并躲过现代机器人防护措施的雷达扫描。Crawlee 为您提供各种工具,帮助您抓取网页链接、数据并以机器可读的格式持久存储数据,而无需担心技术细节。原创 2025-04-14 13:09:17 · 6411 阅读 · 0 评论 -
下一代智能爬虫框架:ScrapeGraphAI 详解
ScrapeGraphAI 是一个基于图计算(Graph Computing)和大语言模型(LLM) 的智能爬虫框架,通过将网页解析任务建模为 有向图(Directed Graph),实现自动化、可解释的网页数据采集。图节点:代表网页元素(如按钮、表格、文本块)图边:定义操作流程(如点击→等待→提取)LLM 辅助:自动生成 XPath/CSS 选择器,处理动态结构instruction="提取所有<h2>标签文本",原创 2025-04-08 19:37:20 · 6903 阅读 · 0 评论 -
一文掌握 google浏览器插件爬虫 的制作
通过以上步骤,你可以构建一个功能完整的 Chrome 插件爬虫。如果需要复杂功能(如自动翻页、验证码破解),可结合后端服务(如 Puppeteer 或 Scrapy)。通过以上技术栈和实现方案,您可以构建从简单到企业级的浏览器插件爬虫。建议从基础内容脚本开始,逐步添加代理、存储等高级功能。制作 Google Chrome 浏览器插件(Extension)爬虫,需要结合。:在Chrome开发者工具中选择对应iframe上下文。(含代理/IP轮换)原创 2025-04-08 19:07:40 · 6764 阅读 · 0 评论 -
前言:为什么要学习爬虫和逆向,该如何学习?
学习爬虫和逆向技术是当今数字化时代的重要技能,尤其在数据分析、安全研究、自动化工具开发等领域有广泛应用。以下是详细的学习理由、路径和方法:原创 2025-04-08 12:00:33 · 7796 阅读 · 0 评论 -
爬虫:一文掌握 Pydoll 的详细使用(彻底改变浏览器自动化,且能绕过绕过验证码!)
Pydoll正在彻底改变浏览器自动化!与其他解决方案不同,它消除了对Web驱动程序的需求,提供了流畅可靠的自动化体验和本机异步性能。原创 2025-04-07 11:00:41 · 6583 阅读 · 0 评论 -
【爬虫案例】采集 Instagram 平台数据几种方式(python脚本可直接运行)
成立时间:2010年10月(2012年被Facebook以10亿美元收购,现属Meta旗下)全球月活用户:约 20亿(2023年数据,仅次于Facebook和WhatsApp)定位:以视觉内容为核心的社交平台,支持图片、短视频(Reels)、直播、Stories(24小时限时动态)原创 2025-04-05 18:46:56 · 7404 阅读 · 1 评论 -
python爬虫:Requestium 的详细使用(简化 Web 抓取和自动化任务)
Requestium 是一个 Python 库,将 Requests(HTTP 请求)和 Selenium(浏览器自动化)的功能整合在一起,它旨在简化 Web 抓取和自动化任务。原创 2025-03-29 18:21:07 · 6302 阅读 · 0 评论 -
逆向中如何判断JSVMP,及如何解决?(包括实战案例)
是一种高级的 JavaScript 代码保护技术,通过将原始代码转换为自定义字节码并在虚拟环境中执行来实现混淆。在逆向工程中,判断目标代码是否采用JSVMP并找到解决方案,需要系统化的分析思路和技术手段。原创 2025-03-29 11:24:03 · 6798 阅读 · 0 评论 -
Python爬虫:Feapder 的详细使用和案例
Feapder 是一个功能强大的 Python 爬虫框架,支持分布式、批次采集、断点续爬等功能。下面将详细介绍 Feapder 的使用方法,并提供多个实用案例。原创 2025-03-26 13:51:49 · 6352 阅读 · 0 评论 -
Python爬虫:Asyncpy 的详细使用和案例(高性能异步爬虫框架)
Asyncpy 是一个基于 Python 异步编程的爬虫框架,它利用 asyncio 和 aiohttp 等库来实现高性能的网络爬取。下面将详细介绍如何使用 Asyncpy 来构建高效的爬虫。原创 2025-03-26 09:48:30 · 6339 阅读 · 0 评论 -
爬虫:Requests-HTML的详细使用
requests-html 是一个基于 requests 和 pyquery 的 Python 库,用于抓取和解析 HTML 内容。它结合了 requests 的简单易用性和 pyquery 的强大 HTML 解析能力,同时支持 JavaScript 渲染、CSS 选择器和 XPath 查询等功能。以下是 requests-html 的详细使用。原创 2025-03-25 10:13:57 · 6035 阅读 · 1 评论 -
爬虫:scrapy面试题大全(60个scrapy经典面试题和详解)
Scrapy是一个用于Python的开源网络爬虫框架,用于快速、高效地抓取网站数据并提取结构化信息。它提供了强大的工具和组件,如请求调度、数据管道、中间件等,可以让开发者专注于数据提取和处理的逻辑。原创 2025-03-23 13:18:33 · 6325 阅读 · 0 评论 -
AI爬虫 :Firecrawl的安装和详细使用案例(将整个网站转化为LLM适用的markdown或结构化数据)
Firecrawl 是一个轻量级、高效的网页抓取工具,专注于从网页中提取结构化数据。它支持静态网页和动态内容(如 JavaScript 渲染的页面),并提供简单易用的 API 或命令行工具。原创 2025-03-18 19:44:51 · 7658 阅读 · 0 评论