爬虫_－O－joker的博客-CSDN博客

爬虫

关注

文章平均质量分 57

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

关注数：文章数：6 文章阅读量：5786 文章收藏量：34

作者: －O－joker

一名热衷于Python编程及网络爬虫技术的开发者，专注Python干货分享，期待有更多的机会与各界朋友合作，共同探索技术的无限可能，创造更加美好的未来

展开

专栏收录文章

探索robots.txt：网站管理者的搜索引擎指南

在数字时代，网站如同企业的在线名片，其内容和结构对搜索引擎的可见性至关重要。而在这背后，有一个默默工作的文件——robots.txt，它扮演着搜索引擎与网站之间沟通桥梁的角色。本文将深入探讨robots.txt的功能、编写方法及其在现代网络管理中的重要性。一、robots.txt 对于网站的重要性robots.txt，一个放置在网站根目录下的纯文本文件，虽然看似简单，却拥有强大的功能。它的主要任务是向搜索引擎爬虫（或称为机器人）提供访问网站的指导原则。

原创 2025-02-07 14:43:59 · 678 阅读 · 0 评论
如何解决：This version of Microsoft Edge WebDriver only supports Microsoft Edge version 129（驱动版本不匹配）

如何解决：This version of Microsoft Edge WebDriver only supports Microsoft Edge version 129（驱动版本不匹配）

原创 2024-11-29 13:46:23 · 679 阅读 · 0 评论
在Selenium中有哪些元素对象操作方法？(￣﹃￣)

在Selenium中，driver.find_element() 方法用于定位页面上的单个元素。一旦你定位到了一个元素，你可以对这个元素执行多种操作。此外，driver.find_element() 只是定位元素的方法之一，它还有其他一些相关的方法和属性，但通常你需要先定位到元素，然后才能对其进行操作。

原创 2024-10-25 17:01:43 · 614 阅读 · 0 评论
方法 find_element

CSS选择器（CSS selectors）是CSS（层叠样式表）中用于选择HTML元素并应用样式的模式。它们允许你根据元素的类型、属性、状态以及它们在文档中的位置来精确地指定你想要样式化的HTML元素。

原创 2024-10-24 11:01:08 · 2044 阅读 · 0 评论
爬虫爬取数据时，如何解决由于验证码通常是动态生成的，直接通过URL下载可能会遇到验证码内容不一致的问题？（￣︶￣）↗

在使用Selenium下载图片验证码时，由于验证码通常是动态生成的，直接通过URL下载可能会遇到验证码内容不一致的问题。因此，更可靠的方法是使用Selenium的截图功能，然后裁剪出验证码部分。再通过第三方服务（如AntiCaptcha、2Captcha等）提供图片验证码的破解服务。你可以通过API将这些服务集成到你的脚本中。这种方法需要付费，并且破解成功率不一定高。如果验证码图片的模式非常简单（如只有数字或字母，且没有扭曲、变形等），你可以尝试使用OCR（光学字符识别）技术来自动识别。

原创 2024-10-23 13:41:36 · 1165 阅读 · 0 评论
方法 WebDriverWait

WebDriverWait是Selenium WebDriver提供的一个工具类，它允许你设置等待条件，直到这个条件成立，才继续执行代码。这对于处理网页上的异步加载元素特别有用，比如等待某个元素变得可见、可点击等。

原创 2024-09-29 09:58:25 · 610 阅读 · 0 评论

爬虫

作者: －O－joker

探索robots.txt：网站管理者的搜索引擎指南

如何解决：This version of Microsoft Edge WebDriver only supports Microsoft Edge version 129（驱动版本不匹配）

在Selenium中有哪些元素对象操作方法？(￣﹃￣)

方法 find_element

爬虫爬取数据时，如何解决由于验证码通常是动态生成的，直接通过URL下载可能会遇到验证码内容不一致的问题？（￣︶￣）↗

方法 WebDriverWait