- 博客(24)
- 收藏
- 关注
原创 《机器学习之 K 近邻算法(KNN)》
本文介绍了K近邻算法(KNN)的原理及应用。首先通过电影评分案例引出分类问题,然后详细讲解KNN算法步骤:计算距离、排序选取K个最近邻、统计类别频率进行预测。重点阐述了欧式距离和曼哈顿距离两种度量方式。最后通过鸢尾花分类和电影类型判断两个实例,展示了KNN的实际应用过程,包括数据划分、模型训练、评估及K值选择优化。文中还给出了完整的Python实现代码,包括数据集加载、模型训练、交叉验证和可视化分析,帮助读者理解如何选择最优K值以提高分类准确率。
2025-08-15 11:07:17
580
原创 机器学习(一)
本文系统介绍了机器学习的基础知识与应用。首先以AlphaGo为例,说明机器学习是通过历史数据训练模型来提升任务效果的过程。其次介绍了机器学习在模式识别、NLP等领域的广泛应用。然后详细讲解了数据集、样本、特征等基本术语,以及监督学习(分类/回归)和无监督学习(聚类/关联)等主要学习类型。最后阐述了模型评估指标(错误率、查准率等)、拟合问题(欠/过拟合)及评估方法(留出法、交叉验证),强调需根据具体任务选择合适算法。全文通过西瓜数据集等实例,为机器学习入门提供了系统框架。
2025-08-14 11:35:38
627
原创 电商双11美妆数据分析(二)
本文基于电商双11美妆销售数据,通过Python数据处理和可视化分析,揭示了以下关键发现:1)数据处理方面,使用jieba分词构建商品分类体系,新增性别标签和销售额特征;2)品牌分析显示相宜本草性价比最高,部分品牌可能存在刷单行为;3)护肤品占主导地位(超70%销量),清洁类和补水类最受欢迎;4)男士专用商品仅占8%,但清洁类产品需求突出;5)销售高峰出现在双11前(9日),而非活动当天。分析采用pandas、matplotlib等技术,为美妆电商的品类布局和营销策略提供了数据支持。
2025-08-13 10:31:38
885
原创 电商双11美妆数据分析(一)
本文对双十一淘宝美妆数据进行了清洗和分析。原始数据包含27598条记录,经过去重(删除86条)和缺失值填补处理后,利用jieba分词对商品标题进行关键词提取,并基于自定义分类词典将商品划分到护肤品和化妆品等大类。数据分析显示:相宜本草销量和销售额均居首,而SKII等品牌销量为零;价格亲民的品牌(0-200元区间)贡献了主要销售额;护肤品占总销量的绝对优势,其中清洁类和补水类产品最受欢迎。可视化分析揭示了价格、销量与销售额之间的关联性,为美妆电商运营提供了数据支持。
2025-08-12 14:12:01
655
原创 数据科学与计算的一些实践案例
本文介绍了一个完整的中国大学排名数据爬取与分析案例。通过Python的Requests和BeautifulSoup库爬取高三网上的大学排名数据(包含820所学校的名称、总分、排名等信息),将数据存储为CSV文件。针对数据中的缺失值提供了四种预处理方法:删除空值行、文本替换、均值和中位数填充。最后利用Matplotlib对学校星级分布进行了可视化分析,包括柱状图、横向柱状图和饼图三种形式。该案例展示了从数据爬取、清洗到分析可视化的全流程,是数据科学领域的典型实践案例。
2025-08-11 13:03:17
839
原创 数据科学与计算Matplotlib;Seaborn
本文介绍了Matplotlib和Seaborn两大Python可视化工具的核心功能。Matplotlib部分重点讲解了图像处理三函数:imshow()用于显示图像(支持灰度/彩色/热力图等),imsave()保存图像文件,imread()读取图像数据并支持修改(亮度调整/裁剪/颜色变换)。Seaborn部分则阐述了其作为统计可视化库的优势,包括主题设置、6种常用图表类型(散点图、折线图、柱状图、箱线图、热图、小提琴图)的实现方法,通过示例代码展示如何快速创建美观的统计图形。全文通过具体代码演示了从基础图像处
2025-08-08 13:34:20
529
原创 数据科学与计算--Matplotlib
本文介绍了Python数据可视化库Matplotlib的基础与应用。主要内容包括:1)Matplotlib的安装导入方法;2)核心绘图功能如plot()函数、图表元素设置;3)多图绘制与常见图表类型(散点图、柱状图、饼图等);4)图像显示与处理操作。最后通过三个实践案例(正余弦图、价格柱状图、运动喜好饼图)展示了Matplotlib的具体使用,包含完整代码示例。该教程适合初学者快速掌握Matplotlib的数据可视化基本技能。
2025-08-07 14:10:33
617
原创 pandas与一些相关的函数
本文介绍了Pandas库中处理缺失值和使用统计函数的几种方法:1) fillna()函数用指定值(如666)或统计值填充缺失值;2) mean()和median()函数分别计算均值和中位数来替换空值;3) 列举了多个常用Pandas函数及其应用场景,包括数据统计、排序、分组等。通过学生成绩等示例代码,演示了shape获取维度、sort_values排序、apply应用函数等操作,展示了Pandas在数据处理中的强大功能。这些方法能有效处理数据缺失问题并进行多样化分析,是数据清洗和分析的重要工具。
2025-08-06 12:42:41
769
原创 Pandas的学习
Pandas是Python中用于数据分析的核心库,支持pip或conda安装。主要数据结构包括Series(一维数组)和DataFrame(二维表格),可通过列表、字典等多种方式创建。数据查询使用loc()方法,支持按行索引查询。文件读取支持CSV等多种格式(如pd.read_csv()),head()/tail()查看首尾数据,info()获取基本信息。缺失数据处理提供isnull()检测空值,dropna()删除空值行,fillna()填充缺失值(支持均值/中位数填充)。文末通过代码示例演示了Serie
2025-08-05 16:57:34
109
原创 数据科学与计算(续--)
摘要:本文介绍了NumPy数组的基本操作和数学统计函数应用。主要内容包括:1)数组元素操作(添加、删除、排序等);2)数组形状变换(reshape、堆叠等);3)字符串处理函数;4)数学运算(三角函数、取整、基本运算等);5)统计函数(极值、均值、方差等)。最后通过学生成绩分析案例,演示了如何计算各科最终成绩(60%考试+40%平时)、平均分、最高分及及格率。案例结果显示,小孙总分最高(74分),语文成绩普遍较好(平均74.7分),英语及格率最低(66.7%)。
2025-08-04 15:53:32
712
原创 数据科学与计算(续)
本文介绍了NumPy数组的基本操作,包括广播机制、数组迭代、形状修改和维度调整。主要内容:1)广播机制允许不同形状数组运算,演示了broadcast()和broadcast_to()函数的使用;2)数组遍历方法,包括行序、列序优先的迭代方式;3)形状修改函数如reshape()、flatten()、ravel()等;4)维度操作函数如expand_dims()、squeeze()等。通过多个代码示例展示了这些功能的具体应用,包括数组转置、轴交换等操作,帮助理解NumPy数组的操作原理和实现方式。
2025-08-01 14:22:10
219
原创 数据科学与计算
NumPy是Python核心科学计算库,提供高效的数组处理功能。文章介绍了NumPy的安装(pip/conda)、导入方式(import numpy as np)和核心Ndarray对象。详细讲解了13种数组创建方法(如array()、zeros()等)及其属性(ndim、shape等),以及数组访问(索引/切片)技巧。包含7个实践练习:创建对角矩阵、随机数组、特定结构数组等,并给出完整代码示例。通过具体案例演示了NumPy数组的基础操作,包括维度转换、元素访问和列交换,是NumPy入门的实用指南。
2025-07-31 13:47:48
598
原创 爬虫的学习(续)
摘要:本文介绍了Python库BeautifulSoup的功能与用法。该库提供HTML/XML文档解析、导航及修改能力,支持自动编码转换,可配合多种解析器使用(如lxml、html5lib)。核心内容包括:1) 基本元素操作(Tag、Name、Attributes等);2) 节点关系选择(父子、兄弟节点);3) find_all()和CSS选择器两种筛选方法。通过两个实践案例(中国大学排名和百度新闻爬取)展示了具体应用,包括网页请求、解析表格数据、提取文本链接并存储为CSV文件。代码示例完整,结果数据清晰呈
2025-07-30 14:53:47
455
原创 爬虫的学习-续
摘要:PyMySQL是Python连接MySQL数据库的工具,支持增删改查等操作。安装使用pip命令,通过pymysql.connect()建立连接后,利用游标执行SQL语句并提交事务。文章演示了建表、增删改查等基本操作,并结合豆瓣图书和安居客二手房两个爬虫案例,展示如何将爬取数据存储到MySQL数据库。案例代码包含数据获取、解析和存储完整流程,强调事务处理的重要性。通过PyMySQL可实现Python与MySQL的高效交互,便于数据管理和分析。
2025-07-29 17:05:56
1235
原创 MySQL的学习--续
摘要:今天学习了SQL连接查询和子查询。连接查询包括内连接和等值连接,通过INNER JOIN和ON关键字实现多表关联查询。子查询分为单行、多行、多列等类型。通过四个表的实践练习(教师表、学生表、成绩表、课程表),掌握了基本查询语法,如查询学生姓名、性别、课程名和分数的语句:SELECT st.s_name,st.s_sex,co.c_name,sc.s_score FROM student st JOIN score sc ON st.s_id=sc.s_id JOIN course co ON sc.c
2025-07-28 15:41:30
163
原创 MySQL的学习
SELECT [DISTINCT] 字段名 FROM 表名(select是查询数据的意思)2.去重复:SELECT DISTINCT 属性 FROM 表名,还有UNION 去重.MySQL数据操纵(INSERT, UPDATE, DELETE)[GROUP BY] 分组。[HAVING] 分组筛选。[ORDER BY] 排序。[WHERE] 条件筛选。SELECT基础查询。
2025-07-25 16:51:27
97
原创 数据库与MySQL
本文总结了MySQL数据库学习要点,包括数据库基本概念、MySQL安装使用、SQL语言分类及常用命令。重点介绍了数据定义语言(DDL)的CREATE、ALTER、DROP操作,并通过实例演示了数据库和表的创建删除过程。同时讲解了SQL语言的四大组成部分(DDL/DML/DQL/DCL)及MySQL数据类型与约束知识,为数据库操作提供基础指导。
2025-07-24 14:15:28
901
原创 Xpath的学习
本文介绍了XPath爬虫技术的学习内容,主要包括Requests库高级用法(会话设置、文件上传等)、XPath基本语法(节点选取、属性过滤等)以及etree模块的HTML解析方法。通过一个实际案例演示了如何爬取图书网站信息,包括书名、作者、价格等数据,并将结果保存为CSV文件。案例代码展示了完整的爬虫流程:获取网页内容、解析HTML结构、提取目标数据和使用CSV存储结果。
2025-07-23 17:40:36
368
原创 爬虫的应用与开发
本文总结了四项技术要点:1.Robots协议规范爬虫行为;2.txt和csv文件存储方法,演示了Python创建csv文件的代码示例;3.JavaScript特性,强调其与Java无关,是弱类型脚本语言,支持浏览器直接运行;4.JavaScript三种使用方式(行内/外部/内部)及var定义变量、流程控制等基础语法。内容涵盖网络协议、文件处理和前端编程基础。
2025-07-22 13:39:07
680
原创 HTML和CSS的学习与实践
本文总结了HTML和CSS的基础知识,包括常用HTML标签(div、span、列表、超链接、图片、表格等)的使用方法,并展示了一个包含表单元素(文本输入框、单选按钮、复选框、下拉菜单等)的注册页面代码示例。同时介绍了CSS的基本概念、作用(美化元素、布局、响应式设计等)和引入方式(内联、嵌入、外联),以及选择器类型(全局、标签、类、ID等)、块级/内联元素区别、盒子模型和浮动等核心概念。全文涵盖了前端开发的基础知识体系。
2025-07-21 16:01:55
861
原创 爬虫初步的实践(四)
学习HTML基础知识,包括常用标记如<hr>水平线、<p>段落,以及实体符号 (空格)、<(小于号)、>(大于号)等特殊字符表示方法。
2025-07-18 15:05:35
702
原创 爬虫初步的实践(三)
本文学习了Session服务器端机制及其与Cookie的区别,通过豆瓣和超星平台进行了实践。使用Python的requests库模拟登录,分别实现了豆瓣账号登录验证(检查"火火"文本)和超星平台登录验证(检查"王建腾"文本)。实践过程中需要注意账号密码正确性、请求URL准确性以及昵称匹配等问题。成功登录后会返回True并显示"登录成功",失败则返回false。代码展示了完整的会话保持流程,包括设置请求头、处理异常等关键步骤。
2025-07-18 14:56:25
1053
原创 爬虫初步的实践(二)
本文介绍了Python Requests库的功能与应用。Requests库支持cookie会话保持,提供7种常用方法如get()和head(),可用于爬取网页数据。通过两个案例实践:1)下载QQ表情包到本地;2)查询手机号归属地并生成HTML结果。还展示了自主实践的代码,用于爬取视频文件。此外,简要说明了cookie的概念,它是存储在浏览器中的纯文本文件,用于网站识别用户。文章通过具体代码示例演示了Requests库在网络爬虫中的实际应用。
2025-07-17 15:45:52
921
1
原创 爬虫的初步实践
摘要:本文介绍了一个简单的Python网络爬虫代码片段,使用requests库获取网页内容。代码实现了异常处理和自动编码检测功能,当输入错误URL时会返回异常信息。演示代码以百度首页为例,展示了如何将获取的网页内容保存为HTML文件。该代码适用于初学者学习基本的网页抓取技术,但需要注意目标网站的robots协议和爬取限制。
2025-07-16 14:21:46
912
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人