如何深入理解时间序列分析中的平稳性
平稳不只是对很多实际过程的「简化」,还是我们的「追求」,是一条时间序列里面长期稳定不变的某些规律,是基本模型。
当面对不平稳的过程的时候,我们首先会想着去把这样的过程变换成平稳的,找出里面相对更不随时间变化的、更「平稳」的那些东西来,更平稳的序列有更低的 Order of integration 。当然,找出这些不变的(或者相对更平稳的)东西来之后,并不代表就一定可以获得真正意义上的预测能力。
举两个例子:
股票绝对价格的涨跌显然不能满足正态分布,Bachelier (1900) 当时就犯了这样的错误。当序列被 Osborne 处理过之后:,开始关注相对变化,这个序列才变得更「平稳」了。
反复做差分变换 ,直到时间序列变得「平稳」为止,做的差分变换的次数即为 Order of integration 。一条时间序列整体随时间变化的趋势消除,因而可以关注一些在整体变化之外的那些涨落,序列也因此变得相对更「平稳」。关于差分变换直至「平稳」的一个好例子就是「抑制了房价」「抑制了房价的增长」「抑制了房价增长的势头」「抑制了房价过快增长的势头」——经过多次差分变换,直到最终「抑制……增长」,得到了一条平稳的时间序列。
关于强平稳和弱平稳的差别:
强平稳是事实上的平稳(同分布);
弱平稳是统计量在观测意义上的平稳(均值、方差)。
第二个问题,均衡跟稳定没有关系。
国家规定了某个商品的价格,这情况完全不均衡,但是巨稳定。
一般均衡达到稳定,跟时间序列的稳定性还是两码事,例如矩可能不存在;又例如我选择的时间序列的时间间隔尺度远小于市场发生响应达到稳定的均衡的时间尺度,得到的序列还是可能是不稳定的。
声明:本文中所有引用部分,如非特别说明,皆引自Time Series Analysis with Applications in R.
接触时间序列分析才半年,尽力回答。如果回答有误,欢迎指出。
对第一个问题,我们把它拆分成以下两个问题:
Why stationary?(为何要平稳?)
Why weak stationary?(为何弱平稳?)
Why stationary?(为何要平稳?)
每一个统计学问题,我们都需要对其先做一些基本假设。如在一元线性回归中(),我们要假设:①不相关且非随机(是固定值或当做已知)②独立同分布服从正态分布(均值为0,方差恒定)。
在时间序列分析中,我们考虑了很多合理且可以简化问题的假设。而其中最重要的假设就是平稳。
The basic idea of stationarity is that the probability laws that govern the behavior of the process do not change over time.
平稳的基本思想是:时间序列的行为并不随时间改变。
正因此,我们定义了两种平稳:
Strict stationarity: A time series {} is said to be strictly stationary if the joint distribution of ,, · · ·, is the same as that of,, · · · ,for all choices of natural number n, all choices of time points ,, · · · , and all choices of time lag k.
强平稳过程:对于所有可能的n,所有可能的,, · · · , 和所有可能的k,当,, · · ·,的联合分布与,, · · · ,相同时,我们称其强平稳。
Weak stationarity: A time series {} is said to be weakly (second-order, or co-variance) stationary if:
① the mean function is constant over time, and
② γ(t, t − k) = γ(0, k) for all times t and lags k.
弱平稳过程:当①均值函数是常数函数且②协方差函数仅与时间差相关,我们才称其为弱平稳。
此时我们转到第二个问题:Why weak stationary?(为何弱平稳?)
我们先来说说两种平稳的差别:
两种平稳过程并没有包含关系,即弱平稳不一定是强平稳,强平稳也不一定是弱平稳。
一方面,虽然看上去强平稳的要求好像比弱平稳强,但强平稳并不一定是弱平稳,因为其矩不一定存在。
例子:{}独立服从柯西分布。{}是强平稳,但由于柯西分布期望与方差不存在,所以不是弱平稳。(之所以不存在是因为其并非绝对可积。)
另一方面,弱平稳也不一定是强平稳,因为二阶矩性质并不能确定分布的性质。
例子:,,互相独立。这是弱平稳却不是强平稳。
知道了这些造成差别的根本原因后,我们也可以写出两者的一些联系:
一阶矩和二阶矩存在时,强平稳过程是弱平稳过程。(条件可简化为二阶矩存在,因为)
当联合分布服从多元正态分布时,两平稳过程等价。(多元正态分布的二阶矩可确定分布性质)
而为什么用弱平稳而非强平稳,主要原因是:强平稳条件太强,无论是从理论上还是实际上。
理论上,证明一个时间序列是强平稳的一般很难。正如定义所说,我们要比较,对于所有可能的n,所有可能的,, · · · , 和所有可能的k,当,, · · ·,的联合分布与,, · · · ,相同。当分布很复杂的时候,不仅很难比较所有可能性,也可能很难写出其联合分布函数。
实际上,对于数据,我们也只能估算出它们均值和二阶矩,我们没法知道它们的分布。所以我们在以后的模型构建和预测上都是在用ACF,这些性质都和弱项和性质有关。而且,教我时间序列教授说过:"General linear process(weak stationarity, linearity, causality) covers about 10% of the real data." ,如果考虑的是强平稳,我觉得可能连5%都没有了。
对第二个问题:
教授有天在审本科毕业论文,看到一个写金融的,用平稳时间序列去估计股票走势(真不知这老兄怎么想的)。当时教授就说:“金融领域很多东西之所以难以估计,就是因为其经常突变,根本就不是平稳的。”
果不其然,论文最后实践阶段,对于股票选择的正确率在40%。连期望50%都不到(任意一点以后要么涨要么跌)。
暑假里自己用了一些时间序列的方法企图开发程序性交易程序。
刚开始收益率还好,越往后就越...后面直接亏损了...(软件是金字塔,第二列是利润率)
亏损的图当时没截,现在也没法补了,程序都删了。
所以应该和平稳没关系吧,毕竟我的做法也没假设是平稳的。如果平稳我就不会之后不盈利了。
(吐槽)自己果然不适合做股票、期货什么的...太高端理解不能...
以上
接触时间序列分析才半年,尽力回答。如果回答有误,欢迎指出。
对第一个问题,我们把它拆分成以下两个问题:
Why stationary?(为何要平稳?)
Why weak stationary?(为何弱平稳?)
Why stationary?(为何要平稳?)
每一个统计学问题,我们都需要对其先做一些基本假设。如在一元线性回归中(),我们要假设:①不相关且非随机(是固定值或当做已知)②独立同分布服从正态分布(均值为0,方差恒定)。
在时间序列分析中,我们考虑了很多合理且可以简化问题的假设。而其中最重要的假设就是平稳。
The basic idea of stationarity is that the probability laws that govern the behavior of the process do not change over time.
平稳的基本思想是:时间序列的行为并不随时间改变。
正因此,我们定义了两种平稳:
Strict stationarity: A time series {} is said to be strictly stationary if the joint distribution of ,, · · ·, is the same as that of,, · · · ,for all choices of natural number n, all choices of time points ,, · · · , and all choices of time lag k.
强平稳过程:对于所有可能的n,所有可能的,, · · · , 和所有可能的k,当,, · · ·,的联合分布与,, · · · ,相同时,我们称其强平稳。
Weak stationarity: A time series {} is said to be weakly (second-order, or co-variance) stationary if:
① the mean function is constant over time, and
② γ(t, t ? k) = γ(0, k) for all times t and lags k.
弱平稳过程:当①均值函数是常数函数且②协方差函数仅与时间差相关,我们才称其为弱平稳。
此时我们转到第二个问题:Why weak stationary?(为何弱平稳?)
我们先来说说两种平稳的差别:
两种平稳过程并没有包含关系,即弱平稳不一定是强平稳,强平稳也不一定是弱平稳。
一方面,虽然看上去强平稳的要求好像比弱平稳强,但强平稳并不一定是弱平稳,因为其矩不一定存在。
例子:{}独立服从柯西分布。{}是强平稳,但由于柯西分布期望与方差不存在,所以不是弱平稳。(之所以不存在是因为其并非绝对可积。)
另一方面,弱平稳也不一定是强平稳,因为二阶矩性质并不能确定分布的性质。
例子:,,互相独立。这是弱平稳却不是强平稳。
知道了这些造成差别的根本原因后,我们也可以写出两者的一些联系:
一阶矩和二阶矩存在时,强平稳过程是弱平稳过程。(条件可简化为二阶矩存在,因为)
当联合分布服从多元正态分布时,两平稳过程等价。(多元正态分布的二阶矩可确定分布性质)
而为什么用弱平稳而非强平稳,主要原因是:强平稳条件太强,无论是从理论上还是实际上。
理论上,证明一个时间序列是强平稳的一般很难。正如定义所说,我们要比较,对于所有可能的n,所有可能的,, · · · , 和所有可能的k,当,, · · ·,的联合分布与,, · · · ,相同。当分布很复杂的时候,不仅很难比较所有可能性,也可能很难写出其联合分布函数。
实际上,对于数据,我们也只能估算出它们均值和二阶矩,我们没法知道它们的分布。所以我们在以后的模型构建和预测上都是在用ACF,这些性质都和弱项和性质有关。而且,教我时间序列教授说过:"General linear process(weak stationarity, linearity, causality) covers about 10% of the real data." ,如果考虑的是强平稳,我觉得可能连5%都没有了。
对第二个问题:
教授有天在审本科毕业论文,看到一个写金融的,用平稳时间序列去估计股票走势(真不知这老兄怎么想的)。当时教授就说:“金融领域很多东西之所以难以估计,就是因为其经常突变,根本就不是平稳的。”
果不其然,论文最后实践阶段,对于股票选择的正确率在40%。连期望50%都不到(任意一点以后要么涨要么跌)。
暑假里自己用了一些时间序列的方法企图开发程序性交易程序。
刚开始收益率还好,越往后就越后面直接亏损了(是金字塔,第二列是利润率)
亏损的图当时没截,现在也没法补了,程序都删了。
所以应该和平稳没关系吧,毕竟我的做法也没假设是平稳的。如果平稳我就不会之后不盈利了。
(吐槽)自己果然不适合做股票、期货什么的太高端理解不能
以上
窦冠17266802037: 本篇文章旨在分享单位根检验、航空模型与季节模型的理解与应用心得,结合《收入时间序列——之模型探索篇》的数据,深入探讨平稳性检验的重要性以及如何在实际应用中选择合适的模型。一. 平稳性检验 平稳性检验主要通过观察时序图、ACF图和单位根检验方法(如ADF、PP、KPSS)来进行。其中,ADF和PP检验结果...
窦冠17266802037: 异常检测则是另一种重要应用,它通过历史数据的分析来识别当前数据是否异常偏离正常模式,这在监控系统性能、金融分析等领域尤为重要。时间序列分析不仅有助于理解数据随时间的变化,还能提供对未来趋势的预测,这对于商业决策、风险管理、技术监控等众多领域至关重要。通过对时间序列数据的深入分析,我们可以更...
窦冠17266802037: 两个模型要求(1)xt平稳;(2)ut存在arch效应 (1)只有xt平稳,我们才可以从当前状态推导出未来的趋势,如果不平稳,根据当前数据计算出来的东西对未来没有任何意义,两个变量间的相关性不一定真实(伪回归问题)。平稳性展开可以讲很多东西( 如何深入理解时间序列分析中的平稳性?—知乎 ),这里先...
窦冠17266802037: 5. MA模型的参数求解: 训练阶段:通过历史数据最小化残差来估计参数。 预测阶段:假设未来误差项的期望为0进行预测。MA模型是时间序列分析中的重要组成部分,它提供了一种基于过去噪声数据来预测当前值的方法。通过深入理解MA模型的基本概念、与AR模型的区别、前提假设、建模流程和参数求解方法,可以为时间...
窦冠17266802037: 深入解析:时间序列单位根检验的详细步骤与应用 在时间序列分析中,单位根检验是核心环节,主要涉及DF、ADF和PP三种检验方法。我们首先来理解单位根的定义:当自回归滞后系数多项式特征方程存在L=1的根时,序列被称为具有单位根,这意味着它可能是非平稳的,如“随机游走”模型。进行单位根检验时,我们...
窦冠17266802037: 时间序列分析(四):深入理解ARMA模型 ARMA模型是时间序列分析中的重要工具,它由AR(p)和MA(q)两部分组成。ARMA过程的定义是[公式],其中[公式]代表白噪声,且满足特定条件。模型的稳定性与可逆性由方程[公式]和[公式]的解的模决定,若模大于1,则过程平稳且可逆。模型阶数的识别是关键步骤。常用的...
窦冠17266802037: 这部分波动是不可预测的,充满了随机性,可能会产生波浪形或震荡式的变动。一个只有随机波动的时间序列被称为平稳序列,其未来的值无法通过过去的趋势或周期性规律来准确预测。理解并分析这四个要素对于深入理解时间序列数据至关重要,它们有助于我们预测未来的趋势,识别可能的市场机会或风险。
窦冠17266802037: 偏自相关系数则更为深入地探讨了随机变量之间的相关关系,它考虑了中间变量的影响,通过k阶回归拟合计算得出。在平稳AR序列中,它等同于k阶自回归拟合中的滞后偏自相关系数,具有截尾性,即在p之后的值均为零。理解这些基本概念对于分析时间序列数据、识别模式以及建立模型具有重要意义,它们在实际应用中是...
窦冠17266802037: 其计算可以通过YuleWalker方程和Levinson递推公式来实现。模型阶数判断:零均值平稳序列是AR序列的一个特性,可通过观察偏相关系数的截尾现象来判断模型的阶数。自回归模型在时间序列分析中具有重要的应用价值,它不仅帮助我们理解历史数据如何影响当前状态,还为预测未来趋势提供了理论基础。
窦冠17266802037: 两者的主要区别在于检验的对象不同:df检验主要关注模型中参数的显著性,而ADF检验则关注时间序列数据的平稳性。但是两者在经济学研究中都有重要意义,都是构建有效经济模型的关键步骤。在实际应用中,经济学家通常会结合两种检验方法来评估模型的可靠性和准确性。同时,理解这两种检验方法也有助于我们更深...