- 博客(25)
- 收藏
- 关注
原创 机器学习(2)
曼哈顿距离:由赫尔曼·闵可夫斯基创,指两个点在标准坐标系上的绝对轴距总和,平面上两点(x1,y1)与(x2,y2)的曼哈顿距离公式为d(i,j)=|x1-x2|+|y1-y2|。选择样本集中k个最相似的数据(k一般不大于20),以这k个数据中出现次数最多的分类作为新数据的分类。输入无标签新数据,将其每个特征与样本集中数据的对应特征比较,提取最相似数据的分类标签。欧式距离:衡量多维空间中两点的绝对距离,给出了二维、三维及n维空间的计算公式。1. 算法定义:每个样本都可以用它最接近的K个邻近值来代表。
2025-08-15 13:42:25
62
原创 机器学习(1)
如图所示, 若一条曲线完全 “包裹” 另一条(如 A 包裹 B、C ),则被包裹的曲线性能更差。向量表示:在机器学习中,对于包含m个示例的数据集D={x1,x2,...,xm},当每个样本由d个属性描述时,每个样本xi可表示为d维向量(xi1,xi2,...,xid),该向量处于d维样本空间X中,其中d被称为样本xi的 “维数”操作:按 7:3 比例,选取 70 个样本(保持 “好瓜占 60%、坏瓜占 40%” 的原始比例,即分层采样)作为训练集,30 个样本作为测试集。
2025-08-14 14:20:52
514
原创 接上文双十一淘宝
sns.barplot(x = '店名', y = 'sale_count', hue = 'main_type' ,estimator=np.sum, data = male_data , ci = 0)male_data.groupby('店名')['销售额'].sum().sort_values(ascending = True).plot.bar()所有男士商品主要销量来自于护肤品。r_day=data.groupby('update_time')['销售额'].sum()
2025-08-13 10:09:20
340
原创 淘宝化妆品
data.loc[data['是否男士专用'] == '是'].groupby('sub_type').sale_count.sum().plot.pie(autopct = '%0f%%',title = '男士各小类销售量占比', pctdistance=0.8)data.groupby('是否男士专用')['销售额'].sum().plot.pie(autopct = '%0f%%',title = '男士专用销售额占比', pctdistance=0.8)
2025-08-12 16:58:35
726
原创 爬虫和数据分析相结合案例
plt.pie(y, labels=["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])x = np.array(["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])x = np.array(["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])labels = ['8.0-8.5分', '8.5-9分', '9.0-9.5分', '9.5-10.0分']
2025-08-11 17:50:42
916
原创 Seaborn
Seaborn是建立在Matplotlib基础之上的Python数据可视化库,它专注于绘制各种统计图形,旨在简化统计数据可视化的过程。其设计目标是让用户通过少量代码就能实现复杂的图形,并且提供了高级接口和美观的默认主题,让可视化结果更具吸引力。`sns.scatterplot()`用于绘制两个变量之间的散点图,还可选择添加趋势线,帮助我们直观地观察两个变量之间的关系。`sns.barplot()`用于绘制变量的均值或其他聚合函数的柱状图,能清晰地展示不同类别数据的差异。二、Seaborn的导入与主题设置。
2025-08-08 17:52:46
273
原创 Matplotlib基础概述
实线(`'-'`/`'solid'`)、点虚线(`':'`/`'dotted'`)、破折线(`'--'`/`'dashed'`)、点划线(`'-.'`/`'dashdot'`)等。颜色(color/c)**:支持简写(`'r'`红、`'g'`绿、`'b'`蓝等)或十六进制代码(如`'#4CAF50'`)。基础标记:点(`.`)、像素点(`,`)、实心圆(`o`)、三角形(`v`下、`^`上、`<`左、`>`右)等。`axis`:显示方向(`'both'`双轴、`'x'`x轴、`'y'`y轴)。
2025-08-07 17:04:32
677
原创 pandas
12. rank()计算分组内排名 默认排序:按数值大小(或指定规则)为每个元素分配排名,数值越大(或越符合规则),排名越靠前。示例(以数值为例) 对于数据 [3, 1, 4, 1, 5]: 按从小到大排序后为 [1, 1, 3, 4, 5] 对应的 rank 结果(默认平均排名)为:[3, 1.5, 4, 1.5, 5] 在排序操作中,ascending 是控制排序方向的参数: ascending=True(默认值):表示按升序排列(从小到大,如 1→2→3 或 A→B→C);
2025-08-06 17:54:14
188
原创 numpy终章及pandas的开始
sort():返回输入数组的排序副本,参数包括要排序的数组、排序轴(axis=0按列排,axis=1按行排)、排序算法和排序字段(针对含字段的数组)。head(n):用于读取前面的n行数据,默认返回5行,如`df.head()`返回前5行,`df.head(3)`返回前3行。tail(n):用于读取尾部的n行数据,默认返回5行,如`df.tail()`返回后5行,`df.tail(3)`返回后3行。argmax() 和 argmin():返回沿给定轴的最大值和最小值的索引。
2025-08-05 17:52:00
904
原创 NumPy核心函数全解析:从字符串处理到数据分析实战
append()沿轴添加元素,无轴参数则展开数组;大小写转换:`capitalize()`(首字母大写)、`title()`(每个单词首字母大写)、`lower()`/`upper()`(全小写/全大写)覆盖各类格式需求。encode()/decode():实现字符串与字节流的转换,需注意编码格式匹配(如`cp500`、`utf-8`),否则会抛出`UnicodeDecodeError`。基础运算:`add()`、`subtract()`、`multiply()`、`divide()`实现数组间加减乘除。
2025-08-05 08:40:14
308
原创 数据科学与计算2
NumPy是数据科学与计算的基础工具,支持大量高维度数组和矩阵计算,是pandas(结构化数据分析)、matplotlib(绘图)、pillow(图像处理)等工具的底层依赖。参数:`shape`(目标形状)、`order`(排序方式,`'C'`按行、`'F'`按列等)。order='C'`:行序优先(C风格),按行依次遍历元素。参数:`order`控制展平顺序(默认`'C'`按行)。参数:`order`控制展平顺序(默认`'C'`按行)。核心工具:`np.nditer`迭代器,用于访问数组元素。
2025-08-01 17:10:02
602
原创 数据科学与计算
数组创建函数丰富,如array()从列表创建,zeros()、ones()生成全0、全1数组,arange()生成整数序列,linspace()、logspace()分别生成等差、等比数列。核心是Ndarray(N维数组),由同类型数据组成,以0为起始索引,二维有行(axis 0)、列(axis 1)方向,三维新增深度方向,元素按“z→y→x”排列。print(f"第100个元素的索引为:({z}, {y}, {x})")第100个元素的索引为:(1, 5, 3)生成一个3*3的对角矩阵。
2025-07-31 17:23:07
863
原创 BeautifulSoup
一、BeautifulSoup概述1. 功能:提供Python式函数处理HTML/XML解析,支持导航、搜索、修改分析树,自动处理编码转换(输入转Unicode,输出转utf-8)。 2. 解析器:支持4种解析器,各有优劣: Python标准库(`html.parser`):内置无需额外安装,容错性中等; lxml HTML/XML解析器:速度快、容错性强,需安装C语言库; html5lib:容错性最佳,模拟浏览器解析,速度慢。 二、BeautifulSoup基本用法1.
2025-07-30 17:47:04
877
原创 PyMySQL基础
cursor对象:execute()(执行SQL)、fetchone()/fetchmany()/fetchall()(获取结果)、rowcount()(返回数据行数)、close()(关闭游标)。connect对象:cursor()(创建游标)、commit()(提交事务)、rollback()(回滚)、close()(关闭连接)。"VALUES(%s,%s,%s,%s,%s,%s,%s,%s)" # 带占位符的SQL。
2025-07-29 18:16:54
463
原创 MySQL数据库综合练习实践分享
具体来说,是通过建表、插入数据及一系列查询练习,熟悉表结构设计(包括主键、约束及备注设置)、数据插入规范,掌握多表关联查询、聚合函数(AVG、COUNT等)、分组(GROUP BY)、筛选(WHERE/HAVING)及排序(ORDER BY)等操作。特别是对多表关联查询的逻辑有了更清晰的认识,知道了如何通过关联字段将不同的表连接起来,获取所需的数据。总的来说,本次实验将理论知识转化为了实际操作能力,不仅让我熟悉了MySQL的相关操作,更培养了我数据查询和分析的思维,为今后处理实际业务数据打下了坚实的基础。
2025-07-28 15:57:59
586
原创 MySQL数据库基础2
从名为 “销售表” 的数据库表里筛选出 “销售数量” 不在 150 到 250 这个区间内的全部记录。的字符长度对查询结果进行排序(排序方式有三种: 升序 降序 按长度排序)计算总和、去重后的平均值、最大值、最小值以及非 NULL 值的行数,并分别以。)的数据进行合并,返回一个包含这两个表所有行的结果集。的数据进行合并,然后返回一个去重后的结果集(去重)在 150 到 250 这个闭区间内的所有记录。超过 250 的记录;不等于 250 的记录,两条语句均自动过滤。中查询所有列的数据,并且按照。
2025-07-25 17:52:40
213
原创 MySQL
数据定义方面,CREATE用于创建库表,ALTER可修改表结构,DROP能删除库表。数据类型含字符、数值等多种,约束有NOT NULL等基础约束及AUTO_INCREMENT等特有约束,可保障数据规范。SQL语言遵循ANSI标准,分DDL(定义结构,如CREATE)、DML(操作数据,如INSERT)、DQL(查询,如SELECT)、DCL(控制权限,如GRANT),还介绍了常用命令。如:查看所有库 :show databases;查看当前库里的所有表 :show tables;查看当前数据库里所有的表。
2025-07-24 14:24:22
202
原创 Xpath
谓语嵌在方括号查找特定节点;通配符匹配未知元素;href = doc.xpath("//div[@id='rankWrap']//li/a/@href") # 播放链接。title = doc.xpath("//div[@id='rankWrap']//li/@title") # 歌曲名。author = row.xpath('div/span/text()')[0].strip() # 作者。name = row.xpath('h4/a/text()')[0] # 书名。
2025-07-23 16:53:26
732
原创 HTML(数据储存)
writer.writerow({'id': '10001', 'name': '郭', 'age': '20'})writer.writerow({'id': '10002', 'name': '张', 'age': '22'})writer.writerow({'id': '10003', 'name': '凤', 'age': '25'})writer.writerow(["id", "name", "age"]) # 写入标题行。"SName": ["周勇", "杨倩"],
2025-07-22 16:41:06
756
原创 网页新增 (上一条的增加版)
a href="https://wiki.biligame.com/world/%E3%80%8A%E4%B8%96%E7%95%8C%E4%B9%8B%E5%A4%96%E3%80%8B%E4%B8%8B%E8%BD%9B%26%E7%99%BB%E5%BD%95%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E6%8C%87%E5%8D%97" target="_self">帮助中心</a>
2025-07-22 16:29:09
899
原创 HTML与CSS
a href="https://wiki.biligame.com/world/%E3%80%8A%E4%B8%96%E7%95%8C%E4%B9%8B%E5%A4%96%E3%80%8B%E4%B8%8B%E8%BD%BD%26%E7%99%BB%E5%BD%95%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E6%8C%87%E5%8D%97" target="_self">帮助中心</a>元素分块级和内联,有多种常用属性,布局涉及盒子模型和元素浮动。
2025-07-21 16:30:09
829
原创 爬虫网络学习(3)
5. Requests库的功能:支持HTTP连接保持和连接池,支持使用Cookie保持会话, 提供Session对象跨请求保持参数。4. Session机制: 存储在服务器端, 通过Session ID与客户端关联, 通常依赖Cookie传递Session。2.HTTP协议的无状态性: HTTP本身是无状态的 使用Cookie和Session实现状态保持。1. 模拟登录的必要性:许多网站需要登录后才能访问深层内容涉及权限管理和隐私数据保护。方法二:使用Session方法登录。print("登录成功!
2025-07-18 14:04:22
970
原创 网络爬虫学习
网络爬虫是数据驱动的核心技术,应用广泛,选择爬虫类型和策略需结合目标需求。搜索引擎索引、数据分析、竞品监控、舆情追踪等。3. 网页基础与 HTTP 协议。1. 网络爬虫的定义与作用。静态页面爬取以及结果。
2025-07-16 14:44:43
1038
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人