停停的茶-CSDN博客

原创机器学习（2）

曼哈顿距离：由赫尔曼·闵可夫斯基创，指两个点在标准坐标系上的绝对轴距总和，平面上两点（x1,y1）与（x2,y2）的曼哈顿距离公式为d(i,j)=|x1-x2|+|y1-y2|。选择样本集中k个最相似的数据（k一般不大于20），以这k个数据中出现次数最多的分类作为新数据的分类。输入无标签新数据，将其每个特征与样本集中数据的对应特征比较，提取最相似数据的分类标签。欧式距离：衡量多维空间中两点的绝对距离，给出了二维、三维及n维空间的计算公式。1. 算法定义：每个样本都可以用它最接近的K个邻近值来代表。

2025-08-15 13:42:25 62

原创机器学习（1）

如图所示，若一条曲线完全 “包裹” 另一条（如 A 包裹 B、C ），则被包裹的曲线性能更差。向量表示：在机器学习中，对于包含m个示例的数据集D={x1,x2,...,xm}，当每个样本由d个属性描述时，每个样本xi可表示为d维向量(xi1,xi2,...,xid)，该向量处于d维样本空间X中，其中d被称为样本xi的 “维数”操作：按 7:3 比例，选取 70 个样本（保持 “好瓜占 60%、坏瓜占 40%” 的原始比例，即分层采样）作为训练集，30 个样本作为测试集。

2025-08-14 14:20:52 514

原创接上文双十一淘宝

sns.barplot(x = '店名', y = 'sale_count', hue = 'main_type' ,estimator=np.sum, data = male_data , ci = 0)male_data.groupby('店名')['销售额'].sum().sort_values(ascending = True).plot.bar()所有男士商品主要销量来自于护肤品。r_day=data.groupby('update_time')['销售额'].sum()

2025-08-13 10:09:20 340

原创淘宝化妆品

data.loc[data['是否男士专用'] == '是'].groupby('sub_type').sale_count.sum().plot.pie(autopct = '%0f%%',title = '男士各小类销售量占比', pctdistance=0.8)data.groupby('是否男士专用')['销售额'].sum().plot.pie(autopct = '%0f%%',title = '男士专用销售额占比', pctdistance=0.8)

2025-08-12 16:58:35 726

原创爬虫和数据分析相结合案例

plt.pie(y, labels=["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])x = np.array(["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])x = np.array(["8星", "7星", "6星", "5星", "4星", "3星", "2星", "1星"])labels = ['8.0-8.5分', '8.5-9分', '9.0-9.5分', '9.5-10.0分']

2025-08-11 17:50:42 916

原创 Seaborn

Seaborn是建立在Matplotlib基础之上的Python数据可视化库，它专注于绘制各种统计图形，旨在简化统计数据可视化的过程。其设计目标是让用户通过少量代码就能实现复杂的图形，并且提供了高级接口和美观的默认主题，让可视化结果更具吸引力。`sns.scatterplot()`用于绘制两个变量之间的散点图，还可选择添加趋势线，帮助我们直观地观察两个变量之间的关系。`sns.barplot()`用于绘制变量的均值或其他聚合函数的柱状图，能清晰地展示不同类别数据的差异。二、Seaborn的导入与主题设置。

2025-08-08 17:52:46 273

原创 Matplotlib基础概述

实线(`'-'`/`'solid'`)、点虚线(`':'`/`'dotted'`)、破折线(`'--'`/`'dashed'`)、点划线(`'-.'`/`'dashdot'`)等。颜色（color/c）**：支持简写（`'r'`红、`'g'`绿、`'b'`蓝等）或十六进制代码（如`'#4CAF50'`）。基础标记：点(`.`)、像素点(`,`)、实心圆(`o`)、三角形（`v`下、`^`上、`<`左、`>`右）等。`axis`：显示方向（`'both'`双轴、`'x'`x轴、`'y'`y轴）。

2025-08-07 17:04:32 677

原创 pandas

12. rank()计算分组内排名默认排序：按数值大小（或指定规则）为每个元素分配排名，数值越大（或越符合规则），排名越靠前。示例（以数值为例）对于数据 [3, 1, 4, 1, 5]：按从小到大排序后为 [1, 1, 3, 4, 5] 对应的 rank 结果（默认平均排名）为：[3, 1.5, 4, 1.5, 5] 在排序操作中，ascending 是控制排序方向的参数： ascending=True（默认值）：表示按升序排列（从小到大，如 1→2→3 或 A→B→C）；

2025-08-06 17:54:14 188

原创 numpy终章及pandas的开始

sort()：返回输入数组的排序副本，参数包括要排序的数组、排序轴（axis=0按列排，axis=1按行排）、排序算法和排序字段（针对含字段的数组）。head(n)：用于读取前面的n行数据，默认返回5行，如`df.head()`返回前5行，`df.head(3)`返回前3行。tail(n)：用于读取尾部的n行数据，默认返回5行，如`df.tail()`返回后5行，`df.tail(3)`返回后3行。argmax() 和 argmin()：返回沿给定轴的最大值和最小值的索引。

2025-08-05 17:52:00 904

原创 NumPy核心函数全解析：从字符串处理到数据分析实战

append()沿轴添加元素，无轴参数则展开数组；大小写转换：`capitalize()`（首字母大写）、`title()`（每个单词首字母大写）、`lower()`/`upper()`（全小写/全大写）覆盖各类格式需求。encode()/decode()：实现字符串与字节流的转换，需注意编码格式匹配（如`cp500`、`utf-8`），否则会抛出`UnicodeDecodeError`。基础运算：`add()`、`subtract()`、`multiply()`、`divide()`实现数组间加减乘除。

2025-08-05 08:40:14 308

原创数据科学与计算2

NumPy是数据科学与计算的基础工具，支持大量高维度数组和矩阵计算，是pandas（结构化数据分析）、matplotlib（绘图）、pillow（图像处理）等工具的底层依赖。参数：`shape`（目标形状）、`order`（排序方式，`'C'`按行、`'F'`按列等）。order='C'`：行序优先（C风格），按行依次遍历元素。参数：`order`控制展平顺序（默认`'C'`按行）。参数：`order`控制展平顺序（默认`'C'`按行）。核心工具：`np.nditer`迭代器，用于访问数组元素。

2025-08-01 17:10:02 602

原创数据科学与计算

数组创建函数丰富，如array()从列表创建，zeros()、ones()生成全0、全1数组，arange()生成整数序列，linspace()、logspace()分别生成等差、等比数列。核心是Ndarray（N维数组），由同类型数据组成，以0为起始索引，二维有行（axis 0）、列（axis 1）方向，三维新增深度方向，元素按“z→y→x”排列。print(f"第100个元素的索引为：({z}, {y}, {x})")第100个元素的索引为：(1, 5, 3)生成一个3*3的对角矩阵。

2025-07-31 17:23:07 863

原创 BeautifulSoup

一、BeautifulSoup概述1. 功能：提供Python式函数处理HTML/XML解析，支持导航、搜索、修改分析树，自动处理编码转换（输入转Unicode，输出转utf-8）。 2. 解析器：支持4种解析器，各有优劣： Python标准库（`html.parser`）：内置无需额外安装，容错性中等； lxml HTML/XML解析器：速度快、容错性强，需安装C语言库； html5lib：容错性最佳，模拟浏览器解析，速度慢。二、BeautifulSoup基本用法1.

2025-07-30 17:47:04 877

原创 PyMySQL基础

cursor对象：execute()（执行SQL）、fetchone()/fetchmany()/fetchall()（获取结果）、rowcount()（返回数据行数）、close()（关闭游标）。connect对象：cursor()（创建游标）、commit()（提交事务）、rollback()（回滚）、close()（关闭连接）。"VALUES(%s,%s,%s,%s,%s,%s,%s,%s)" # 带占位符的SQL。

2025-07-29 18:16:54 463

原创 MySQL数据库综合练习实践分享

具体来说，是通过建表、插入数据及一系列查询练习，熟悉表结构设计（包括主键、约束及备注设置）、数据插入规范，掌握多表关联查询、聚合函数（AVG、COUNT等）、分组（GROUP BY）、筛选（WHERE/HAVING）及排序（ORDER BY）等操作。特别是对多表关联查询的逻辑有了更清晰的认识，知道了如何通过关联字段将不同的表连接起来，获取所需的数据。总的来说，本次实验将理论知识转化为了实际操作能力，不仅让我熟悉了MySQL的相关操作，更培养了我数据查询和分析的思维，为今后处理实际业务数据打下了坚实的基础。

2025-07-28 15:57:59 586

原创 MySQL数据库基础2

从名为 “销售表” 的数据库表里筛选出 “销售数量” 不在 150 到 250 这个区间内的全部记录。的字符长度对查询结果进行排序（排序方式有三种：升序降序按长度排序）计算总和、去重后的平均值、最大值、最小值以及非 NULL 值的行数，并分别以。）的数据进行合并，返回一个包含这两个表所有行的结果集。的数据进行合并，然后返回一个去重后的结果集（去重）在 150 到 250 这个闭区间内的所有记录。超过 250 的记录；不等于 250 的记录，两条语句均自动过滤。中查询所有列的数据，并且按照。

2025-07-25 17:52:40 213

原创 MySQL

数据定义方面，CREATE用于创建库表，ALTER可修改表结构，DROP能删除库表。数据类型含字符、数值等多种，约束有NOT NULL等基础约束及AUTO_INCREMENT等特有约束，可保障数据规范。SQL语言遵循ANSI标准，分DDL（定义结构，如CREATE）、DML（操作数据，如INSERT）、DQL（查询，如SELECT）、DCL（控制权限，如GRANT），还介绍了常用命令。如：查看所有库：show databases;查看当前库里的所有表：show tables;查看当前数据库里所有的表。

2025-07-24 14:24:22 202

原创 Xpath

谓语嵌在方括号查找特定节点；通配符匹配未知元素；href = doc.xpath("//div[@id='rankWrap']//li/a/@href") # 播放链接。title = doc.xpath("//div[@id='rankWrap']//li/@title") # 歌曲名。author = row.xpath('div/span/text()')[0].strip() # 作者。name = row.xpath('h4/a/text()')[0] # 书名。

2025-07-23 16:53:26 732

原创 HTML（数据储存）

writer.writerow({'id': '10001', 'name': '郭', 'age': '20'})writer.writerow({'id': '10002', 'name': '张', 'age': '22'})writer.writerow({'id': '10003', 'name': '凤', 'age': '25'})writer.writerow(["id", "name", "age"]) # 写入标题行。"SName": ["周勇", "杨倩"],

2025-07-22 16:41:06 756

原创网页新增（上一条的增加版）

a href="https://wiki.biligame.com/world/%E3%80%8A%E4%B8%96%E7%95%8C%E4%B9%8B%E5%A4%96%E3%80%8B%E4%B8%8B%E8%BD%9B%26%E7%99%BB%E5%BD%95%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E6%8C%87%E5%8D%97" target="_self">帮助中心</a>

2025-07-22 16:29:09 899

原创 HTML与CSS

a href="https://wiki.biligame.com/world/%E3%80%8A%E4%B8%96%E7%95%8C%E4%B9%8B%E5%A4%96%E3%80%8B%E4%B8%8B%E8%BD%BD%26%E7%99%BB%E5%BD%95%E5%B8%B8%E8%A7%81%E9%97%AE%E9%A2%98%E6%8C%87%E5%8D%97" target="_self">帮助中心</a>元素分块级和内联，有多种常用属性，布局涉及盒子模型和元素浮动。

2025-07-21 16:30:09 829

ylqw258369的博客