本项目在Kaggle中是数据分析入门项目,如果你想了解数据分析,我们就从这里开始吧!
数据集可以到Kaggle入门项目中直接找到,下载即可!
1.提出问题
什么样的人在泰坦尼克号中更容易存活?
2.采集数据、理解数据
导入数据分析工具库Numpy、Pandas
用pandas中的read_csv()方法读取格式为CSV的数据集
ps:本项目涉及到机器学习,所以我们有2个数据集,一个训练数据集,一个测试数据集,如果你还没有接触机器学习,我们先将这两个数据集进行合并,一起做一下数据分析,关于机器学习部分作为了解就可以,没有影响。
上图中,我们使用numpy的shape()的方法可以查看数据集的形状,这里我们可以了解到这个数据集有1309行,12列。
查看数据集信息,了解数据,我们用head()方法,默认查看前5行
使用统计数据信息描述方法describe()查看数据信息,查看是否存在异常值
查看数据是否有缺失以及数据类型
数据总共有1309行,Survived是标签,用作机器学习预测,无需处理。 数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:
年龄(Age)里面数据总数是1046条,缺失了263,缺失率20%;
船票价格(Fare)里面数据总数是1308条,缺失了1条数据字符串列;
登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失较少;
船舱号(Cabin)里面数据总数是295,缺失了1014,缺失率77.5%,缺失较大。
登船港口缺失2个值,将其填充为出现次数最多的值。船舱号(Cabin)缺失指较多,将其填充为’U‘。
3.数据清洗
3.1数据预处理:缺失数据处理