- 博客(26)
- 收藏
- 关注
原创 Java了解(更至Task3)
一、Java特性 Java:静态面向对象编程语言 1)简单性:没有结构,不需要指针 2)面向对象 3)分布性:分布式语言。既支持各种层次的网络连接,又以Socket类支持可靠的流*(stream)*网络连接,所以用户可以产生分布式的客户机和服务器。 4)编译和解释性 java编译程序生成字节码(byte-code),而不是常用的机器码 5)稳健性 6)安全性 7)可移植性 8)高性能:Java是一种先编译后解释的语言 9)多线程性 10)动态性 二、基本数据类型与变量 (一)基本数据类型(简单数据类型)
2021-07-13 22:12:28
151
原创 Linux
一、了解Linux 特点 1、开源免费 2、多用户、多任务 3、安全可靠 4、稳定 5、多平台 发展历程 MINIX--教授AndrewS.Tanenbaum 教学用,向学生讲述操作系统内部工作原理。 Linux0.01-学生Linus Torvalds 利用Unix的核心,去除繁杂的核心程序,改写成适用于一般计算机的x86系统 常用发行版 1、Debian 2、Ubuntu 3、CentOS 4、Fedora 5、Kali Kali Linux是Debian的一款衍生版。旨在渗透测试和数字取证 6、
2021-06-14 23:31:00
231
原创 Task 3 特征工程
""" 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法 学习特征交互、编码、选择的相应方法 """ # 3.3.1 导入包并读取数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime from tqdm import tqdm from sklearn.preprocessing import LabelEncoder from
2020-09-21 23:34:42
218
原创 Task 2 数据分析
目的: 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 2.了解变量间的相互关系、变量与预测值之间的存在关系。 3.为特征工程做准备 2.2 内容介绍 1、数据总体了解: 1)读取数据集并了解数据集大小,原始特征维度; 2)通过info熟悉数据类型; 3)粗略查看数据集中各特征基本统计量; 2、缺失值和唯一值: 1)查看数据缺失值情况 2)查看唯一值特征情况 3、深入数据-查看数据类型 1)类别型数据 2)数值型数据 ①离
2020-09-17 23:51:28
722
原创 Task 1 赛题理解
预测指标 AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积 分类算法常见的评估指标如下: 1、混淆矩阵(Confuse Matrix) (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive ) (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative ) (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive ) (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True N
2020-09-15 23:20:06
290
原创 文件与文件系统
1、文件与文件系统 1)打开文件 open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure. file: 必需,文件路径(相对或者绝对路径)。 mode: 可选,文件打开模式 buffering: 设置缓冲 encoding: 一般使用utf8 errors: 报错级
2020-08-08 23:52:41
477
原创 模块及时间模块
模块 把所有的定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module) 模块是一个包含所有定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用Python标准库的方法 1、什么是模块 1)容器→数据的封装 2)函数→语句的封装 3)类→方法和属性的封装 4)模块→程序文件 # hello.py def hi(): print('Hi everyone, I love lsgogroup!') 2、命名空间 命名空
2020-08-07 23:51:42
229
原创 类与对象
一、类与对象 1、对象 = 属性+方法 对象是类的实例,类主要定义对象的结构,然后以类为模板创建对象。 类不但包含方法定义,还包含所有实例共享的数据。 #1)封装:信息隐藏技术 #我们可以使用关键字class定义Python类,关键字后面紧跟类的名称、分号和类的实现 class Turtle: #Python中的类名约定以大写字母开头 """关于类的一个简单例子""" #属性 color = 'green' weight = 10 legs = 4 shel
2020-08-05 23:37:42
212
原创 函数与Lambda表达式
1、函数 Python把函数也当成对象,可以从另一个函数中返回出来而去构建高阶函数,如: 参数是函数;返回值是函数 1)函数的定义 以def关键词开头,后接函数名和括号() 函数执行的代码以:起始并缩进 return[表达式]结束函数,选择性的返回一个值给调用方。不代表达式的return相当于返回None def functionname(parameters): “函数_文档字符串” function_suite return[expression] 2)函数的调用 def printme(str):
2020-08-02 22:35:09
204
原创 字典 集合 序列
一、字典 1、可变类型与不可变类型 1)序列是以连续的整数为索引,与此不同的是,字典以“关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值 2)字典是Python唯一的一个映射类型,字符串、元组、列表属于序列类型 3)如何快速判断一个数据类型x是不是可变类型? ①麻烦方法:用id(X)函数,对X进行某种操作,比较操作前后的Id,如果不一样,则X不可变,如果一样,则X可变 ②便捷方法:用hash(X),只要不报错,证明X可被hash,即不可变,反过来不可被hash,即可变。 i=1 print(i
2020-07-31 23:51:20
415
原创 列表、元组和字符串
一、列表 一、列表 简单的数据类型:整形int浮点型float布尔型bool 容器数据类型:列表list元组tuple字典dict集合set字符串str 1、列表的定义 列表是有序集合,没有固定大小,能够保存任意数量任意类型的Python对象,语法为[元素1,元素2,…,元素n] 关键点是[]和, []把所有元素绑在一起 , 将每个元素一一分开 2、列表的创建 ##1)创建一个普通列表 x=['Monday','Tuesday','Wednesday','Thursday','Friday'] prin
2020-07-28 23:51:13
403
原创 3 异常处理
异常处理 计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行 1.Python标准异常总结 1)BaseException:所有异常的基类 2)Exception: 常规异常的基类 3)StandardError: 所有的内建标准异常的基类 4)ArithmeticError: 所有数值计算异类的基类 5)FloatingPointError: 浮点计算异常 6)OverflowError: 数值运算超出最大限制 7)ZeroDivisionE
2020-07-24 23:33:53
174
原创 2.条件循环结构
#一、条件语句 1.if 语句 if expression: ←expression表达式可以通过布尔操作符and,or,not实现多重判断 expr_true_suite ←当expression为真时才执行,否则执行后面的语句 if 2 > 1 and not 2 > 3: print('Correct Judgement!') Correct Judgement! if-else语句 if expression: expr_true_suite ←如果布尔值为Fa
2020-07-23 23:18:17
192
原创 01. 变量、运算符与数据类型
1、注释 #用于整行 ‘’’ ‘’’ 或""" “”" 多行注释 2、运算符 ##1)算数运算符 / // 整除(地板除) % 取余 ** 幂 print(3//4) print(3%4) print(2**3) 0 3 8 ##2)比较运算符 = < <= == != ##3)逻辑运算符 and or not print((6> 3) or (11< 9)) True ##4)位运算符 按位取反 & 按位与 | 按位或 ^ 按位异或 &l
2020-07-22 23:47:08
118
原创 Task3 字符识别模型
卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。 CNN每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野,并缩减图像的尺寸。 CNN是一种层次模型,输入的是原始的像素数据。CNN通过卷积(convolution)、池化(pooling)、非线性激活函数(non
2020-05-26 23:55:00
181
原创 Task 2 数据读取与数据扩增
数据读取 数据扩增方法 Pytorch读取赛题数据 2.2图像读取: 在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。 2.2.1 Pillow Pillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取和处理的操作,而且可以与ipython notebook无缝集成,是应用比较广泛的库。 Pillow的官方文档:https://pillow.readthedocs.io/en/stable/ from PIL import
2020-05-23 17:21:50
287
原创 零基础入门CV赛事-Task1 赛题理解
赛题名称:零基础入门CV之街道字符识别 赛题目标:通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。 赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。 读取数据 import json train_json = json.load(open(r'D:\study\cv\train.json')) <div STYLE="page-break-after:always;"></div> #
2020-05-20 01:31:34
272
1
原创 pandas-第四章 变形
import numpy as np import pandas as pd df = pd.read_csv(r'D:\study\pandas\data\table.csv') df.head() School Class ID Gender Address Height ...
2020-04-28 23:41:33
310
原创 pandas-第三章 分组
import numpy as np import pandas as pd df = pd.read_csv(r'D:\study\pandas\data\table.csv',index_col='ID') df.head() School Class Gender Address Height ...
2020-04-26 23:11:00
308
原创 pandas-第二章 索引
import numpy as np import pandas as pd df = pd.read_csv(r'D:\study\pandas\data\table.csv',index_col='ID') df.head() School Class Gender Address Height ...
2020-04-23 23:31:46
299
原创 第一章 Pandas基础
import pandas as pd import numpy as np pd.__version__ '0.25.1' 一、文件读取与写入 1.读取 # (a) csv格式 df = pd.read_csv(r'D:\study\pandas\data\table.csv') df.head() School Class ...
2020-04-21 00:25:41
261
1
原创 第一章 Pandas基础
问题 【问题一】 Series和DataFrame有哪些常见属性和方法? series属性:values、index、name、dtpye DataFrame属性:values、index、name、dtpye、columns、shape 方法:mean() rename() drop() del assign() T 【问题二】 value_counts会统计缺失值吗? 不会,count返回非缺...
2020-04-20 23:56:25
403
原创 Task5 模型融合
#5.4.1 回归|分类概率-融合: 导入工具包 import numpy as np import pandas as pd import itertools import seaborn as sns import matplotlib.pyplot as plt import matplotlib.gridspec as gridspec from sklearn import metri...
2020-04-04 21:37:14
107
原创 Task4 建模与调参
#读取数据 导入工具包 import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') 创建reduce_mem_usage函数通过调整数据类型,帮助我们减少数据在内存中占用的时间 def reduce_mem_usage(df): start_mem = df.memory...
2020-04-01 00:35:11
174
原创 Task 3 特征工程
常见的特征工程: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布)、归一化(抓换到 [0,1] 区间); 数据分桶: 等频分桶; 等距分桶; Best-KS 分桶(类似利用基尼指数进行二分类); 卡方分桶; 缺失值处理: 不处理(针对类似 XGBoost 等树模型); 删除(缺失数...
2020-03-28 17:37:11
210
原创 Task2-EDA(Exploratory Data Analysis)
EDA(Exploratory Data Analysis) 数据探索: 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过 作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 一、载入各种数据科学以及可视化库 如 pandas numpy matplotlib seaborn 项目 二、载入数据 载入数据 简略观察数据...
2020-03-24 00:33:41
153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人