自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 机器学习数据预处理全面指南:缺失值处理、标准化与特征编码

数据预处理是机器学习流程中不可或缺的一环。缺失值处理的多种方法(删除、填充)数据标准化的两种常用方式(MinMaxScaler、StandardScaler)特征编码技术(独热编码、序号编码、目标编码)数据二值化的应用。

2025-08-20 16:32:01 426

原创 决策树算法详解:从 ID3 到剪枝策略,一篇搞定核心原理与实践

决策树是一种直观且强大的机器学习算法,ID3、C4.5、CART 分别从信息增益、增益率、基尼指数三个角度解决属性划分问题;连续值处理通过离散化转化为分类问题;剪枝策略(预剪枝 / 后剪枝)有效平衡拟合与泛化能力。

2025-08-19 16:39:20 389

原创 决策树原理详解:从熵到信息增益的构建之旅

关键概念核心意义在决策树中的作用熵 (H)度量数据的不确定性/混乱度。值越大越混乱。衡量划分前原始数据或划分后子集数据的纯度。信息增益 (IG)特征划分带来的不确定性减少量。值越大越好。选择最优节点特征的标准。根节点决策树的起点,最重要的特征。首次划分数据,影响整棵树结构。递归构建在每个分支上重复选择最优特征的过程。自动化生成完整的树形决策结构。效率训练复杂(需计算所有特征的信息增益),预测极快。模型适用于需要快速预测的场景。决策树的魅力在于其直观性。

2025-08-18 14:44:45 423

原创 KNN 算法详解:从电影分类到鸢尾花识别的实战指南

KNN 算法虽简单,却揭示了机器学习中 "相似性度量" 的核心思想。从电影分类到鸢尾花识别,其 "近邻表决" 的逻辑在生活中随处可见。掌握 KNN 不仅能解决简单分类问题,更能帮你理解复杂算法的底层逻辑 —— 毕竟,所有模型的本质都是寻找数据中的 "相似性" 与 "规律"。

2025-08-16 16:46:20 629

原创 机器学习核心概念精要:从定义到评估

机器学习致力于让计算机系统基于经验数据提升特定任务的性能。任务导向:针对具体问题(如分类、预测)。经验驱动:依赖大量数据进行学习。性能度量:需明确定义衡量任务完成好坏的评判标准。持续优化:通过分析数据,不断改进任务执行效果。标志性事件:2016年3月,AlphaGo以4:1战胜围棋世界冠军李世石,展示了机器学习在复杂决策领域的强大潜力。

2025-08-16 16:18:16 889

原创 深度解析和鲸社区热门项目:电商双 11 美妆数据分析的细节与价值

这个《电商双 11 美妆数据分析》项目虽未展示完整的分析结论,但其技术细节、用户反馈和学习建议,已为我们提供了多重启示:对学习者:实战项目是提升技能的最佳途径,遇到问题时多看社区评论,往往能找到解决方案;对行业者:双 11 美妆数据的分析思路(如通过标题分词做商品分类)可迁移到其他电商品类,为选品、定价提供数据支持。

2025-08-16 16:01:18 565

原创 中国大学排名爬取与数据分析案例总结

本案例展示了如何通过爬虫技术获取中国大学排名数据,并使用Python的pandas和可视化库进行数据预处理和分析的全过程。案例来源于高三网的中国大学排名一览表。1.爬虫技术网页数据抓取 结构化数据提取 CSV文件存储2.数据处理Pandas缺失值处理 多种填充策略选择 数据统计计算3.数据可视化Matplotlib/Seaborn绘图 柱形图和饼图应用场景 数据比例展示技巧。

2025-08-16 13:42:31 463

原创 Seaborn数据可视化库入门指南

Seaborn是一个基于Matplotlib构建的高级Python数据可视化库,专注于统计图形的绘制。它通过提供高级接口和精心设计的默认主题,大大简化了复杂统计图形的创建过程。与Matplotlib相比,Seaborn具有以下优势:更简洁的API,减少代码量 美观的默认主题和颜色方案对Pandas数据框的良好支持 内置多种统计图形类型Seaborn作为Python数据可视化的重要工具,以其简洁的语法和美观的输出,成为数据探索和分析的利器。

2025-08-08 16:22:42 161

原创 Matplotlib 入门到进阶:数据可视化全攻略

本文涵盖了 Matplotlib 的核心功能,从基础的线条绘制到复杂的多子图和图像处理,基本满足数据可视化的日常需求。Matplotlib 的灵活性在于其丰富的参数定制,建议结合实际数据多做练习,逐步掌握样式调整和图表优化技巧。后续可探索更多高级功能,如动态图表、交互式可视化等,让数据表达更高效、更直观。

2025-08-07 16:46:24 333

原创 Pandas :从缺失值处理到成绩分析实践

Pandas 的缺失值处理是数据清洗的核心环节,isnull()识别缺失、dropna()删除缺失、fillna()填充缺失,三者结合能应对绝大多数场景。而通过成绩分析案例可以发现,Pandas 的数值计算函数(mean()max()等)配合行 / 列操作(axis=0/1),能快速实现多维度数据分析。

2025-08-06 17:44:34 634

原创 NumPy 进阶与 Pandas 基础:数据处理核心工具链总结

NumPy 的统计、排序与搜索函数为数值型数据分析提供了底层支持,尤其适合数组级批量运算;Pandas 则通过 Series 和 DataFrame 简化了结构化数据的处理流程,从数据读取、查询到缺失值清洗均能高效完成。两者结合可覆盖数据处理全流程:用 NumPy 进行数值计算与统计分析,用 Pandas 处理表格数据与缺失值。后续通过实际案例练习,能进一步加深对这些工具的理解与应用。

2025-08-05 17:37:45 812

原创 NumPy 数组操作全解析:从形状修改到数组连接

在数据科学与计算领域,NumPy 是不可或缺的基础库,它提供了高效的多维数组操作能力,是学习 pandas、matplotlib 等工具的前提。

2025-08-01 15:26:01 735

原创 NumPy 入门详解:从基础到实践

NumPy 作为 Python 科学计算的核心库,其高效的 Ndarray 数组和丰富的操作函数,让数值计算变得简单高效。本文从安装、数组创建、属性到切片索引,覆盖了 NumPy 的基础核心内容,掌握这些知识后,你就可以应对大部分基础数值计算场景了。

2025-07-31 17:22:51 847

原创 数据解析利器:BeautifulSoup 全面指南

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,它的核心优势在于:简洁易用:提供 Python 式的函数接口,简化导航、搜索和修改文档树的操作编码自动处理:自动将输入文档转为 Unicode 编码,输出为 utf-8 编码,无需手动处理编码问题多解析器支持:兼容多种解析器,可根据需求选择速度或容错性更优的方案功能全面:支持节点选择、方法筛选、CSS 选择器等多种解析策略。

2025-07-30 18:13:48 602

原创 爬虫数据存储实战:PyMySQL 操作 MySQL 全指南

在爬虫应用开发中,爬取到的数据需要高效、可靠地存储,而关系型数据库(如 MySQL)凭借结构化存储、事务支持等特性成为常用选择。

2025-07-29 18:26:33 242

原创 MySQL 进阶查询: 连接查询与子查询

连接查询专注于多表数据关联,通过内连接、外连接等方式整合不同表的信息,需明确 “保留哪些表的记录”;子查询专注于复杂逻辑拆分,通过内层结果驱动外层查询,适合实现 “基于动态结果的筛选”。

2025-07-28 16:29:35 889

原创 MySQL 数据库基础知识点总结(一)

SUM AS :总和, AVG AS :平均值, MAX AS: 最大值, MIN( AS: 最小值, COUNT*AS 总记录数 FROM 销售表;MySQL 中对数据的基本操作主要包括插入、更新和删除,分别对应INSERT(插入)、UPDATE(更新)、DELETE(删除)DELETE FROM 表名 WHERE 条件,同样需要 WHERE 条件,否则删除表中所有记录。:直接合并所有记录(不去重复)值替换为指定值,如 0):合并后自动(去重复)

2025-07-25 18:58:48 300

原创 MySQL 数据库基础入门

数据库是 "按照数据结构来组织、存储和管理数据的仓库"。本质上是一个文件系统,以文件的方式存在于服务器的电脑中。它是长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

2025-07-24 18:43:09 413

原创 Requests 高级用法与 XPath 解析技术

XML 路径语言,用于在 XML/HTML 中定位元素和属性,支持路径表达式、函数库,是 W3C 标准,常与 lxml 库的 etree 模块配合使用。

2025-07-23 18:59:37 496

原创 JavaScript 入门基础

JavaScript(简称 JS)是一种运行在浏览器中的脚本语言,与 HTML(构建页面骨架)、CSS并称为前端三要素。它的主要作用是实现页面的动态交互,比如表单验证、弹窗提示、内容实时更新等。行内式:直接写在 HTML 标签的事件属性中,适合简单交互。基于对象:可以通过内置对象实现复杂功能,无需从头构建。标识符:变量 / 函数的命名规则,由字母、数字、弱类型语言:变量类型由赋值决定,定义时只需用。组成,不能以数字开头,也不能使用关键字。:字符串(用单引号或双引号包裹):函数(可被赋值给变量)

2025-07-22 18:36:49 159

原创 静态网页爬取、数据存储

实现:通过 Python 的open()函数创建文件对象,使用write()写入数据,支持指定路径、编码(如utf-8)和写入模式。实现:借助pandas库,将DataFrame对象通过to_excel()方法写入.xlsx文件(需依赖openpyxl库)。Allow:指定允许爬取的目录。定义:全称网络爬虫排除标准,是网站通过根目录下的robots.txt文件告知爬虫哪些页面可爬、哪些不可爬的协议。:通过csv.writer()或csv.DictWriter()(字典格式)写入,支持标题行和中文数据。

2025-07-22 18:17:49 193

原创 HTML 开发基础

HTML标签通常是成对出现的,例如<html>和

2025-07-21 18:33:34 234

原创 对HTML开发基础的认识

HTML指的是超文本标记语言,它是用来描述网页的一种语言。HTML不是一种编程语言,而是一种标记语言。

2025-07-18 18:15:29 136

原创 网络爬虫学习-豆瓣

开启开发者工具:切换到 “网络(Network)” 选项卡,勾选 “保留日志(Preserve log)”,避免登录跳转后请求丢失。工具:浏览器开发者工具(F12 或 Ctrl+Shift+I),用于分析登录请求的 URL、参数。提交登录并捕获请求:输入账号密码并点击 “登录”,在网络请求中找到登录相关的 POST 请求。豆瓣账号:准备可用的豆瓣账号(手机号 / 邮箱 + 密码),若没有需先注册。打开登录页面:访问豆瓣登录页(),选择 “密码登录”。

2025-07-18 18:04:22 222

原创 静态网页爬取示例

对应图片格式是网站前缀加对应图片源代码的尾缀,动图就是gif,静图就是jpg。表情包_QQ表情包下载_动漫卡通图片_第1页_表情党。爱奇艺-在线视频网站-海量正版高清视频在线观看。

2025-07-17 15:00:56 129

原创 关于爬虫概念的认识

网络爬虫( Crawler,又被称为网页蜘蛛--Spider、网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫经典的应用案例,如Google、百度、Bing(必应)。

2025-07-16 14:33:44 1139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除