时间序列预测：探索性数据分析和特征工程的实用指南

时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势，这一领域一直是企业非常感兴趣的领域。

随着机器学习模型的不断进步，使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外，与机器学习(如基于树的模型)和深度学习(如LSTM网络、cnn、基于Transformer的模型)相关的技术已经出现了一段时间。

尽管这些技术之间存在巨大差异，但无论模型是什么，都必须完成一个初步步骤:探索性数据分析。

在统计学中，探索性数据分析(Exploratory Data Analysis, EDA)是对数据进行分析和可视化，以总结数据的主要特征并从中获得相关信息的一门学科。这在数据科学领域非常重要，因为它可以为另一个重要步骤奠定基础:特征工程。

所以我们今天这篇文章将总结一个时间序列数据的分析模板，可以总结和突出数据集的最重要特征。我们将使用一些常见的Python库，如Pandas、Seaborn和Statsmodel。

为了方便演示，将使用Kaggle的小时能耗数据。该数据集与PJM小时能源消耗数据有关，PJM是美国的一个区域输电组织，为几个州提供电力。每小时的电力消耗数据来自PJM的网站，单位是兆瓦。

我在本文中我们将EDA总结为六个步骤:描述性统计、时间图、季节图、箱形图、时间序列分解、滞后分析。

描述性统计

描述性统计是一种汇总统计，用于定量地描述或总结结构化数据集合中的特征。

一些通常用于描述数据集的度量是:集中趋势度量(例如平均值，中位数)，分散度量(例如范围，标准差)和位置度量(例如百分位数，四分位数)。所有这些都可以用所谓的五数总结来概括，即分布的最小值、第一四分位数(Q1)、中位数或第二四分位数(Q2)、第三四分位数(Q3)和最大值。

在Python中，这些信息可以使用Pandas中众所周知的describe方法轻松检索:

import pandas as pd
 
 # Loading and preprocessing steps
 df = pd.read_csv('../input/hourly-energy-consumption/PJME_hourly.csv')
 df = df.set_index('Datetime')
 df.index = pd.to_datetime(df.index)
 
 df.describe()

时间序列预测：探索性数据分析和特征工程的实用指南

描述性统计

相关阅读

最近更新

LLM | 偏好学习算法并不学习偏好排序

YoloCS：有效降低特征图空间复杂度

改进的检测算法：用于高分辨率光学遥感图像目标检测

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！