Python泰坦尼克号生存概率分析

本文通过分析泰坦尼克号数据集,探讨影响乘客生存率的因素,包括性别、头衔、家庭人数和船舱等级。结果显示,女性、已婚女士、未婚女子和小家庭成员的生存率较高,而船舱等级也影响生存概率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本项目在Kaggle中是数据分析入门项目,如果你想了解数据分析,我们就从这里开始吧!
数据集可以到Kaggle入门项目中直接找到,下载即可!

1.提出问题

什么样的人在泰坦尼克号中更容易存活?

2.采集数据、理解数据

导入数据分析工具库Numpy、Pandas
在这里插入图片描述

用pandas中的read_csv()方法读取格式为CSV的数据集

在这里插入图片描述

ps:本项目涉及到机器学习,所以我们有2个数据集,一个训练数据集,一个测试数据集,如果你还没有接触机器学习,我们先将这两个数据集进行合并,一起做一下数据分析,关于机器学习部分作为了解就可以,没有影响。
在这里插入图片描述
上图中,我们使用numpy的shape()的方法可以查看数据集的形状,这里我们可以了解到这个数据集有1309行,12列。
查看数据集信息,了解数据,我们用head()方法,默认查看前5行
在这里插入图片描述
使用统计数据信息描述方法describe()查看数据信息,查看是否存在异常值
在这里插入图片描述
查看数据是否有缺失以及数据类型
在这里插入图片描述
数据总共有1309行,Survived是标签,用作机器学习预测,无需处理。 数据类型列:年龄(Age)、船舱号(Cabin)里面有缺失数据:

年龄(Age)里面数据总数是1046条,缺失了263,缺失率20%;

船票价格(Fare)里面数据总数是1308条,缺失了1条数据字符串列;

登船港口(Embarked)里面数据总数是1307,只缺失了2条数据,缺失较少;

船舱号(Cabin)里面数据总数是295,缺失了1014,缺失率77.5%,缺失较大。

登船港口缺失2个值,将其填充为出现次数最多的值。船舱号(Cabin)缺失指较多,将其填充为’U‘。

3.数据清洗

3.1数据预处理:缺失数据处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值