
pandas
YakultGo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
资金流入流出预测实践
一、数据探索与分析 首先来看看seaborn这个库的用法,因为我们在作分析的时候,会频繁的使用这个库。 Seaborn是一种基于matplotlib的图形可视化python libraty。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。 Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。应该把Seaborn视为matplotlib原创 2020-08-18 16:51:16 · 552 阅读 · 0 评论 -
(二)数据处理及特征清理
2.1 缺失值观察与处理 我们拿到的数据经常会有很多缺失值,比如我们可以看到Cabin列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢。 2.1.1 缺失值观察 还是以泰坦尼克号的数据为例。查看各个特征缺失值个数 # 首先导入库和数据 import numpy as np import pandas as pd df = pd.read_csv('train.csv') 方法1: df.info() 不过这样显示的是非缺失值的数据,不够直观。 方法2: df.isnull().sum()原创 2020-08-18 15:00:40 · 334 阅读 · 0 评论 -
(一)数据加载及探索性数据分析
导入numpy和pandas # 如果没安装这两个库可以通过 # conda install numpy 或者 pip install numpy # conda install pandas 或者 pip install pandas import numpy as np import pandas as pd 载入数据 虽然有上面那么多种用法,不过用的最多的还是read_csv和read_table这两个。 这次学习使用的是泰坦尼克号的数据,kaggle链接——https://www.kaggle.原创 2020-08-16 12:04:03 · 203 阅读 · 0 评论 -
【学习笔记】pandas_时序数据
一、时序的创建 1. 四类时间变量 2. 时间点的创建 pandas.to_datetime(arg, errors='raise', dayfirst=False, yearfirst=False, utc=None, format=None, exact=True, unit=None, infer_datetime_format=False, origin='unix', cache=True) 以下格式是合法的: pd.to_datetime('2020.1.1') pd.to_datetime原创 2020-06-29 20:51:40 · 152 阅读 · 0 评论 -
【学习笔记】 pandas_分类数据
一、category的创建及其性质 通常实时的数据包括重复的文本列。例如:性别,国家和代码等特征总是重复的。这些是分类数据的例子。分类变量只能采用有限的数量,而且通常是固定的数量。除了固定长度,分类数据可能有顺序,但不能执行数字操作。 分类是Pandas数据类型。 1、分类变量的创建 (a)用Series创建 pd.Series(["a", "b", "c", "a"], dtype="category") (b)对DataFrame指定类型创建 df = pd.DataFrame({'A':pd.S原创 2020-06-27 13:29:05 · 587 阅读 · 0 评论 -
【学习笔记】pandas_文本数据
一、String 类型的性质 1、string与object的区别 string类型和object不同之处有三: ① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型 ② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节 ③ string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan,其余全原创 2020-06-25 13:39:15 · 253 阅读 · 0 评论 -
【学习笔记】pandas_缺失数据
学习内容是github上的Joyful-Pandas的第六章——缺少数据。 github链接为: https://github.com/datawhalechina/joyful-pandas 首先学习到的是缺少观测及其类型 先导入测试用到的数据。 df = pd.read_csv('data/table_missing.csv') df.head() 缺失信息包括 isna() 和 notna() 两个方法。 df['Physics'].isna().head() 然后可以用求和看有多少个缺失原创 2020-06-21 13:53:56 · 271 阅读 · 0 评论