使用数据基础描述进行连续变量的特征提取

最新推荐文章于 2025-08-19 18:49:14 发布

原创最新推荐文章于 2025-08-19 18:49:14 发布 · 873 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习

待分类-数据分析师专栏收录该内容

40 篇文章

订阅专栏

在数据科学与机器学习的过程中，数据的描述性统计和时间特征工程是十分重要的环节。描述性统计有助于快速理解数据的分布情况，而时间特征则能从时间数据中提取出有意义的信息，如趋势和周期性，帮助模型提升预测能力。本教程将围绕如何利用描述性统计量和时间数据来创建特征，旨在帮助读者掌握这些核心概念和技术，以应对各种数据分析任务。

本文将介绍如何对数值数据进行区间划分、如何提取日期和时间中的关键特征，并通过实际示例展示这些方法在工作中的应用。

数据描述和时间特征

在数据处理的过程中，描述性统计和时间特征工程是至关重要的两个步骤。描述性统计通过对数据的整体分布进行分析理解数据的基本结构和规律，包括集中趋势（如均值、中位数）和离散趋势（如方差、标准差）。这些信息为后续的建模和特征构建奠定了基础。而时间特征工程则聚焦于从时间相关的数据中提取有用的特征，捕捉其中的周期性变化、趋势性波动等规律，这对于涉及时间序列分析或预测的任务尤为重要。

合理地运用描述性统计和时间特征提取可以为数据预处理提供强有力的支持，提高模型对数据的理解深度，进而提升预测效果。

特征工程	描述
数值区间统计归类	对数值型数据进行区间划分，帮助更好地理解数据的集中与分布特性。
日期特征提取	提取日期中的年、月、日、周等信息，帮助捕捉时间中的潜在周期规律。
时间特征提取	从时间数据中提取时间趋势、季节性特征或周期性变化，提升模型对时间序列数据的理解。

数值区间统计归类特征

在数据处理中，数值区间的划分是一种常用且有效的操作，尤其在特征工程中，能够将连续变量转化为分类变量，从而增强模型对数据的理解。通过将数值按分位数或其他统计方式划分为不同的区间，不仅能够减少异常值对模型的影响，还可以让模型针对不同区间内的数据进行独立分析。这样的处理方式能简化复杂的连续数据，并在保持数据趋势的同时，减少噪声的干扰。

数值区间统计归类的一个典型应用是将数据划分为“高、中、低”三个区间，这样能够更直观地分析数据趋势，并为模型训练提供额外的有用特征。通过基于统计分布的区间划分，尤其是处理大规模数据时，这种方法能够有效提升模型的性能和表现。

特征工程	描述
数值区间划分	使用分位数或其他统计方式将连续变量分为不同的区间，转化为分类变量。
高、中、低区间划分	将数据划分为不同的区间，如高、中、低，帮助更好地观察趋势并辅助模型训练。
分位数划分	基于数据的统计分布，将数据分为多个区间，减少异常值的影响，适用于大规模数据处理。

基本操作

假设有一组表示房屋价格的数据集，使用分位数对价格数据进行划分。分位数的划分方式通常分为四分位数（Quartile）、十分位数（Decile）等。以下是代码示例，使用pandas库进行操作：

import pandas as pd

# 创建样本数据
data = {'price': [100000, 150000, 200000, 300000, 500000, 600000, 700000]}
df = pd.DataFrame(data)

# 使用qcut进行四分位数切分
df['price_bin'] = pd.qcut(df['price'], 4, labels=['Low', 'Medium', 'High', 'Very High'])

# 输出结果
print(df)

在这段代码中，pd.qcut函数将数据按四分位数进行切分，并将其划分为四个类别：Low, Medium, High, Very High。切分后的price_bin列就代表了价格的区间归类特征。

应用示例

基于数值区间划分的消费等级分析

在电子商务平台中，平台方经常需要根据客户的年消费总额将客户划分为不同等级，以便更好地进行市场定位和制定差异化的营销策略。通过将客户消费总额按区间划分为低消费、中等消费和高消费客户，可以更精准地为不同层级的客户群体提供定制化的产品推荐和促销活动。这种数值区间划分有助于识别客户的消费行为模式，提升客户忠诚度和平台收益。

import pandas as pd

# 构造示例数据集，包含客户的年消费总额
data = {'客户ID': [1, 2, 3, 4, 5],
        '年消费总额': [500, 1500, 2500, 10000, 6000]}

# 创建DataFrame
df = pd.DataFrame(data)

# 定义消费区间
bins = [0, 1000, 5000, 10000]
labels = ['低消费', '中等消费', '高消费']

# 根据消费总额划分消费等级
df['消费等级'] = pd.cut(df['年消费总额'], bins=bins, labels=labels, right=False)

# 输出结果
print(df)

在此代码中，首先创建了一个包含客户年消费总额的示例数据集。定义了消费区间的分界点，分别为0-1000元、1000-5000元和5000-10000元，代表不同的消费等级。通过 pd.cut() 函数，程序将每个客户的年消费总额划分为相应的等级，并将其存储在新列中。这个过程可以依据数值区间对客户进行分类，进而为不同的客户群体制定个性化的营销策略。这种方法对于处理大规模的客户数据尤其有效，能够帮助企业高效进行客户分层和精准营销。

日期特征

日期数据中通常蕴含着丰富的信息，通过提取日期的细粒度特征，如年、月、日、季度、周等，可以帮助模型更好地理解数据中的时间规律。这些时间特征在数据分析和机器学习中具有重要意义，尤其是在涉及时间序列分析的场景下。提取这些日期相关的特征，能够帮助捕捉季节性变化、年度趋势以及周期性波动，从而提高模型的预测能力。

例如，在销售数据中，某些商品的销量可能随着季节变化而呈现出周期性波动。通过提取月份、季度或节假日等特征，可以揭示这些潜在的趋势，进而提升预测的准确性。这种方法特别适用于那些受时间影响显著的业务场景，如零售、物流和金融。

特征工程	描述
年、月、日提取	将日期信息拆分为年、月、日等特征，捕捉时间中的基础变化规律。
季度、周提取	提取季度、周等特征，捕捉周期性或季节性变化，提升模型对时间趋势的理解。
节假日特征	针对特殊日期（如节假日）提取特征，帮助模型捕捉特殊时间节点对数据的影响。

基本操作

以一组日期数据为例，可以提取出年、月、日等信息。以下是使用pandas对日期进行特征提取的操作示例：

# 创建样本日期数据
df['date'] = pd.to_datetime(['2023-01-15', '2023-05-22', '2023-09-10'])

# 提取年份、月份、季度
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['quarter'] = df['date'].dt.quarter

# 输出结果
print(df)

代码中，通过pd.to_datetime函数将字符串格式的日期转换为pandas的日期格式，之后可以方便地使用.dt属性提取年、月、季度等信息。

应用示例

零售销售预测中的日期特征提取

在零售行业中，销售预测是优化库存管理、促销活动和供应链管理的重要一环。为了准确预测未来销售情况，通常会利用历史数据中的日期特征。通过对日期数据进行特征提取，分析特定时间点（如月份、季度、星期几等）的销售趋势，可以帮助企业更好地制定决策。例如，某些月份的促销活动可能会显著提高销售额，而这些模式可以通过对时间相关特征的提取与分析加以识别，从而帮助企业在相应时期调整库存和资源分配。

import pandas as pd

# 创建一个包含日期数据的示例数据集
data = {'date': ['2023-01-15', '2023-02-20', '2023-03-25', '2023-04-30', '2023-05-15']}
df = pd.DataFrame(data)

# 将日期数据转换为datetime格式
df['date'] = pd.to_datetime(df['date'])

# 提取日期相关特征
df['month'] = df['date'].dt.month  # 提取月份
df['quarter'] = df['date'].dt.quarter  # 提取季度
df['day_of_week'] = df['date'].dt.dayofweek  # 提取星期几（0=周一, 6=周日）
df['day_of_year'] = df['date'].dt.dayofyear  # 提取一年中的第几天

# 输出提取的日期特征
print(df)

在这个示例中，首先创建了一个包含日期数据的简单数据集，并将日期转换为datetime格式，以便更方便地进行时间特征的提取。接着，通过pandas库中的dt属性从日期数据中提取了几个常见的时间相关特征，包括月份（month）、季度（quarter）、星期几（day_of_week）以及一年中的第几天（day_of_year）。这些时间特征在预测模型中能够帮助捕捉不同时间维度上的销售模式，为优化库存管理和促销策略提供依据。

时间特征

时间数据在数据分析中同样扮演着重要角色，时间特征提取的核心目标是从时间戳中提取出小时、分钟、秒等信息，帮助模型捕捉数据中潜在的时间规律。这种特征提取对于处理具有明显时间模式的数据尤为关键，尤其是在一些预测任务中，如交通流量、能源消耗等领域。通过提取小时、分钟等时间细节，模型可以识别出某些时间段内的特殊模式或峰值，进而提升预测的准确性。

例如，在交通流量预测中，早晚高峰的流量通常会显著增加。通过提取小时信息，模型可以更好地捕捉这些高峰时段的流量变化规律，从而提高对交通流量的预测能力。

特征工程	描述
小时、分钟、秒提取	从时间戳中提取小时、分钟、秒等信息，捕捉时间段内的规律性变化。
高峰时段分析	通过小时信息，识别早晚高峰等特定时段的模式变化，提升模型的预测能力。
时间模式识别	提取细粒度时间特征，帮助模型更好地理解数据中的周期性或阶段性变化。

基本操作

以下是一个从时间戳数据中提取小时、分钟信息的操作示例：

# 创建样本时间数据
df['time'] = pd.to_datetime(['08:30:00', '14:45:00', '21:15:00'])

# 提取小时、分钟
df['hour'] = df['time'].dt.hour
df['minute'] = df['time'].dt.minute

# 输出结果
print(df)

在这个例子中，时间数据是通过pd.to_datetime函数转换为时间格式，之后可以使用.dt属性提取小时和分钟等特征。

应用示例

出租车订单分析及调度优化

在城市中，出租车公司希望通过对历史订单数据进行分析，以提升车辆调度的效率和客户的满意度。通过提取订单的时间特征（如小时、星期几、节假日等），可以有效预测高峰时段，从而进行合理的运力分配。在早晚高峰期，由于上下班需求的增加，出租车订单量通常会明显增多。通过对这些时间相关特征的深入分析，公司可以提前进行车辆调度，避免供需失衡，同时也能够提升整体的运营效率。

import pandas as pd

# 假设有一个包含出租车订单数据的DataFrame，包含订单的时间戳
df = pd.DataFrame({
    'order_id': [1, 2, 3, 4, 5],
    'order_time': ['2023-09-10 07:45:00', '2023-09-10 18:30:00', 
                   '2023-09-11 09:00:00', '2023-09-11 22:15:00', 
                   '2023-09-12 08:00:00']
})

# 将订单时间转化为datetime格式
df['order_time'] = pd.to_datetime(df['order_time'])

# 提取时间相关特征
df['hour'] = df['order_time'].dt.hour  # 提取小时
df['day_of_week'] = df['order_time'].dt.dayofweek  # 提取星期几（0为周一，6为周日）
df['is_weekend'] = df['day_of_week'].apply(lambda x: 1 if x >= 5 else 0)  # 判断是否为周末

# 显示提取的时间特征
print(df[['order_id', 'hour', 'day_of_week', 'is_weekend']])

在该应用场景中，通过从出租车订单数据中提取时间相关特征，可以分析订单的时段分布情况。代码中利用了Python的pandas库，将订单的时间戳转换为具体的小时、星期几等信息。这些特征可以帮助识别高峰时段（例如，早上7-9点和下午5-7点），进而优化出租车的调度方案。通过提取这些时间变量，出租车公司可以在高峰期时提前增加运力，或在周末和工作日进行不同的调度策略，从而有效提升服务质量。