
爬虫
文章平均质量分 57
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
-O-joker
一名热衷于Python编程及网络爬虫技术的开发者,专注Python干货分享,期待有更多的机会与各界朋友合作,共同探索技术的无限可能,创造更加美好的未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探索robots.txt:网站管理者的搜索引擎指南
在数字时代,网站如同企业的在线名片,其内容和结构对搜索引擎的可见性至关重要。而在这背后,有一个默默工作的文件——robots.txt,它扮演着搜索引擎与网站之间沟通桥梁的角色。本文将深入探讨robots.txt的功能、编写方法及其在现代网络管理中的重要性。一、robots.txt 对于网站的重要性robots.txt,一个放置在网站根目录下的纯文本文件,虽然看似简单,却拥有强大的功能。它的主要任务是向搜索引擎爬虫(或称为机器人)提供访问网站的指导原则。原创 2025-02-07 14:43:59 · 678 阅读 · 0 评论 -
如何解决:This version of Microsoft Edge WebDriver only supports Microsoft Edge version 129(驱动版本不匹配)
如何解决:This version of Microsoft Edge WebDriver only supports Microsoft Edge version 129(驱动版本不匹配)原创 2024-11-29 13:46:23 · 679 阅读 · 0 评论 -
在Selenium中有哪些元素对象操作方法?( ̄﹃ ̄)
在Selenium中,driver.find_element() 方法用于定位页面上的单个元素。一旦你定位到了一个元素,你可以对这个元素执行多种操作。此外,driver.find_element() 只是定位元素的方法之一,它还有其他一些相关的方法和属性,但通常你需要先定位到元素,然后才能对其进行操作。原创 2024-10-25 17:01:43 · 614 阅读 · 0 评论 -
方法 find_element
CSS选择器(CSS selectors)是CSS(层叠样式表)中用于选择HTML元素并应用样式的模式。它们允许你根据元素的类型、属性、状态以及它们在文档中的位置来精确地指定你想要样式化的HTML元素。原创 2024-10-24 11:01:08 · 2044 阅读 · 0 评论 -
爬虫爬取数据时,如何解决由于验证码通常是动态生成的,直接通过URL下载可能会遇到验证码内容不一致的问题?( ̄︶ ̄)↗
在使用Selenium下载图片验证码时,由于验证码通常是动态生成的,直接通过URL下载可能会遇到验证码内容不一致的问题。因此,更可靠的方法是使用Selenium的截图功能,然后裁剪出验证码部分。再通过第三方服务(如AntiCaptcha、2Captcha等)提供图片验证码的破解服务。你可以通过API将这些服务集成到你的脚本中。这种方法需要付费,并且破解成功率不一定高。如果验证码图片的模式非常简单(如只有数字或字母,且没有扭曲、变形等),你可以尝试使用OCR(光学字符识别)技术来自动识别。原创 2024-10-23 13:41:36 · 1165 阅读 · 0 评论 -
方法 WebDriverWait
WebDriverWait是Selenium WebDriver提供的一个工具类,它允许你设置等待条件,直到这个条件成立,才继续执行代码。这对于处理网页上的异步加载元素特别有用,比如等待某个元素变得可见、可点击等。原创 2024-09-29 09:58:25 · 610 阅读 · 0 评论