时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。
随着机器学习模型的不断进步,使除了传统的统计预测方法(如回归模型、ARIMA模型、指数平滑)外,与机器学习(如基于树的模型)和深度学习(如LSTM网络、cnn、基于Transformer的模型)相关的技术已经出现了一段时间。
尽管这些技术之间存在巨大差异,但无论模型是什么,都必须完成一个初步步骤:探索性数据分析。
在统计学中,探索性数据分析(Exploratory Data Analysis, EDA)是对数据进行分析和可视化,以总结数据的主要特征并从中获得相关信息的一门学科。这在数据科学领域非常重要,因为它可以为另一个重要步骤奠定基础:特征工程。
所以我们今天这篇文章将总结一个时间序列数据的分析模板,可以总结和突出数据集的最重要特征。我们将使用一些常见的Python库,如Pandas、Seaborn和Statsmodel。
为了方便演示,将使用Kaggle的小时能耗数据。该数据集与PJM小时能源消耗数据有关,PJM是美国的一个区域输电组织,为几个州提供电力。每小时的电力消耗数据来自PJM的网站,单位是兆瓦。
我在本文中我们将EDA总结为六个步骤:描述性统计、时间图、季节图、箱形图、时间序列分解、滞后分析。
描述性统计
描述性统计是一种汇总统计,用于定量地描述或总结结构化数据集合中的特征。
一些通常用于描述数据集的度量是:集中趋势度量(例如平均值,中位数),分散度量(例如范围,标准差)和位置度量(例如百分位数,四分位数)。所有这些都可以用所谓的五数总结来概括,即分布的最小值、第一四分位数(Q1)、中位数或第二四分位数(Q2)、第三四分位数(Q3)和最大值。
在Python中,这些信息可以使用Pandas中众所周知的describe方法轻松检索:
import pandas as pd
# Loading and preprocessing steps
df = pd.read_csv('../input/hourly-energy-consumption/PJME_hourly.csv')
df = df.set_index('Datetime')
df.index = pd.to_datetime(df.index)
df.describe()