python 数据分析 _统计常用概念(一)

1. 统计学中常用概念

  • Mean 均值
    平均数或算数平均数,常用

  • Outliers 异常值
    不适合大多数数据集的值称为异常值

  • Percentiles 百分数
    百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下:
    第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。

  • Interquartile Range 四分位数范围
    使用第75个值减去第25个百分点的值称为四分位数范围,即有50%的数据范围。四分位数范围可以让我们了解我们的数据是如何分散的。四分位数范围值越小,我们的数据集中的方差越小;值越大,方差越大。

  • Median 中位数
    即排序后的中间数值

  • Standard Deviation 标准差
    方差的均方根,用于反映样本数据内个体的离散程度(波动率)。标准差越大,数据的离散程度越大,波动越大。

2. mean平均值和median中位数的比较

在数据集中,中位数和平均值的比较非常重要。与均值不同,中位数不受异常值的影响。如果数据集中的数据偏斜或者数据分布不均匀时,中位数则会受到影响。

3. 分位数

分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。常用的有Median中位数、Quartile四分位数、Percentiles百分位数等。

假设连续型随机变量 X 的分布函数为 F(X),那么满足条件的 F(X)<1/4 ,称为 X 或分布函数 F(X) 的四分位数。也就是说,对于概率密度函数,四分位点就是将概率密度曲线下的面积均分为4部分的点。

上 a 分位数:该数值将概率密度函数曲线下的面积沿x轴分成两部分,其中该点右侧部分概率密度函数曲线与x轴围成的面积等于 a 。

4. 最大最小值,中位数,四分位数和百分位数关系

将一个数据集的数据从小到大排序后,依次出现:

  • 最小值
  • 第25个百分位,即第一个四分位数
  • 第50百分位,即中位数
  • 第75个百分位,即第三个四分位数
  • 最大值

5.统计学中概率分布的思辨

概率分布是规律,规律是客观存在的,统计学家发现了它们;所以还会有没有被总结归纳出来的分布模型;

通过现象总结出了规律,然后进行普世;遇到实际问题的时候,反过来往分布模型上靠,最终关心的是通过模型计算出来的概率值。
所以需要掌握的内容包括:

  • 判断属于那种分布
  • 知道如何计算该分布的概率和其他我们感兴趣的数据

下一篇:统计常用概念(二)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值