灰色系统主要研究“少数据” “贫信息”问题, 现已广泛应用于经济、农业、工业、生物等领域.灰色关联分析是灰色系统理论的重要组成部分, 是灰色系统建模、灰色决策以及灰色控制模型的基础.自Deng[1]提出灰色关联分析理论以来, 众多学者参与研究并相继构造了大量灰色关联模型, 如:灰熵关联度[2]、欧几里德关联度[3]、T型关联度[4]、B型关联度[5]、斜率关联度[6]、绝对关联度、相对关联度和广义关联度[7]等.
上述关联度公式研究对象为一维时间序列.目前, 关于面板数据灰色关联分析的研究仍处于起步阶段.文献[8]基于三维空间距离构造出三维对象的灰色关联分析模型, 弥补了灰色关联理论在面板数据中的空白; 文献[9]将灰关联分析与谱聚类结合, 利用序列的均衡接近度描述数据点的相似程度; 文献[10]将面板数据表征为时空特征的“水平”距离、“增量”距离和“变异”距离, 以此构建了灰色关联模型; 文献[11]将面板数据投射为空间网格, 利用线段在空间中的斜率构建了面板数据的关联模型;文献[12]基于空间向量的夹角和投影分别建立了面板数据的相似性和接近性关联度模型; 文献[13]基于B型关联度构建了面板数据的灰色B型关联度公式; 文献[14]在二维灰色凸关联度的基础上提出了三维面板数据的凸关联度模型.针对面板数据, 上述研究从不同角度构建了关联模型, 在一定程度上丰富了面板数据灰色关联分析理论.文献[14]利用黑塞矩阵定义了凸度, 即曲线的弯曲方向, 但是未能很好刻画曲线的弯曲程度.
鉴于此, 本文引入曲线曲率思想.曲率刻画了曲线的弯曲程度, 能够很好地反映曲线的几何特征.另外, 该度量还有其他优良性质, 如关联系数与曲线的空间位置无关等.为此, 将面板数据投射为时间维度离散曲线和指标维度离散曲线, 分别计算他们各点离散曲率, 以此构建关联系数公式, 最终得到灰色曲率关联度公式.通过对比分析, 新的关联度公式能够很好地反映面板数据的相关程度.最后, 将新的关联度公式应用于济南市7区的空气质量评价分析, 结果表明, 新的关联度能较好地反映面板数据的关联程度.
1 相关知识面板数据包括指标截面数据和时间信息, 同时具有时间维度和指标维度.文献[15-16]采用三维表描述面板数据.为了描述面板数据的几何特征, 文献[17]将面板数据对应为m×n矩阵.
定义1[17] 样本i关于指标s在时间t的数值为xi (s, t), 称
为样本i的行为矩阵, 面板数据序列X =(X1, X2, …, XN)称为样本序列.
样本i的行为矩阵可简记为Xi = (xi (s, t))m×n.为了进一步刻画面板数据的几何特征, 将面板数据分别投射为时间维度离散曲线和指标维度离散曲线.
定义2 设样本i的行为矩阵Xi = (xi (s, t))m×n, 记
Xis称为面板数据Xi关于指标s的时间维度离散曲线.
定义3 设样本i的行为矩阵Xi = (xi (s, t))m×n, 记
定义4 设样本i的行为矩阵Xi = (xi (s, t))m× n, Xis、
(xi(s, t))t'、(xi(s, t))s'分别称为样本Xi在点(s, t)处关于时间和指标的一阶差分. (xi(s, t))tt"、(xi(s, t))ss''分别称为样本Xi在点(s, t)处关于时间和指标的二阶差分.
定义5 设样本i的行为矩阵Xi = (xi(s, t))m× n, Xis为样本i的时间维度离散曲线, 记
其中:
|Kis(t)|值越大, 表明曲线在时间维度的弯曲程度越大, 反之越小.若Kis(t)>0, 则曲线的弯曲方向向上; 若Kis(t) < 0, 则曲线的弯曲方向向下; 若Kis(t)=0, 则曲线退化为直线.
定义6 设样本i的行为矩阵Xi = (xi (s, t))m× n,
其中:
同理,
定义7 设面板数据样本序列X=(X1, X2,…, XN), 其中Xi=(xi(s, t))m× n.记
1) 如果数据为成本型, 则有
2) 如果数据为效益型, 则有
3) 如果数据为居中型, 则有
其中D称为极差变换算子.
原始数据经过极差变换算子的处理, 消除了量纲量级对模型的影响, 转换为标准值, 且xi(s, t)d∈[0, 1].
2 灰色曲率关联度关联分析通过计算关联度反映两个序列之间的相关程度, 为了能够正确度量这种相关性, 必须最大程度地反应序列之间的实际关系.对于面板数据, 从相似性角度看, 空间曲线曲率的差异反应了他们在不同维度上相关程度的大小, 即曲率值越接近, 相关性越好, 反之越差.所以可以利用曲率刻画面板数据的相关程度大小.
定义8(时间维度关联系数) 设X =(X1, X2,…, XN)为样本序列, Kis(t)、Kjs(t)分别为样本Xi和Xj在点(s, t)关于时间维度的离散曲率.记
ρij(s, t)称为样本Xi和Xj在点(s, t)关于时间维度关联系数.
定义9(指标维度关联系数) 设X =(X1, X2, …, XN)为样本序列,
σij(s, t)称为样本Xi和Xj在点(s, t)关于指标维度关联系数.
定义10(时间维度关联度) 设X=(X1, X2, …, XN)为样本序列, ρij(s, t)为样本Xi和Xj在点(s, t)关于时间维度关联系数.记
ρij称为样本Xi和Xj的时间维度关联度.
定义11 (指标维度关联度) 设X =(X1, X2, …, XN)为样本序列, σij(s, t)为样本Xi和Xj在点(s, t)关于指标维度关联系数.记
σij称为样本Xi和Xj的指标维度关联度.
上述关联度从不同维度刻画了面板数据的相关程度.为了整体刻画面板数据的相关性的大小, 将时间维度关联度和指标维度关联度加权得到灰色曲率关联度.
定义12 (灰色曲率关联度) 设X =(X1, X2, …, XN)为样本序列, ρij和σij分别为样本Xi和Xj时间维度关联度和指标维度关联度.记
其中α>0, β>0, α+β=1, εij(s, t)称为样本Xi和Xj的灰色曲率关联度.
一般情况下, α、β取值1/2, 即α=β=1/2.
定理1 基于面板数据的灰色曲率关联度满足灰色关联公理.
证明 1)规范性.显然0 < εij, 对于时间维度关联度, 由于|Kis(t)-Kjs(t)|≥ 0, 有
即ρij(s, t)≤ 1, 则有ρij≤1.同理, 对于指标维度关联度, σij≤1, 所以0 < αρij+βσij≤1(α>0, β>0, α+β=1), 满足规范性公理.
2) 接近性.由两面板数据在点(s, t)处关于时间维度和指标维度关联系数公式可以得到, 当他们关于时间维度和指标维度的离散曲率越接近, 相应的关联系数越大, 从而灰色曲率关联度越大, 满足接近性公理.
定理2 基于面板数据的灰色曲率关联模型具有如下性质: 1) 0 < εij≤1; 2)对称性εij=εji; 3) εii=1; 4) εij与空间位置无关, 仅与离散曲线的离散曲率值有关; 5)相似性, 两面板数据的形状越相似, εij越接近于1; 6)平移不变性, 若x'i(s, t)=xi(s, t)+c, x'j(s, t)=xj(s, t)+c, 其中c为常数, 则ε'ij=εij.
证明 由定理1和关联系数公式易得性质1) ~性质5)成立, 下面证明性质6).对于时间维度, 设ρ'ij为X'i与X'j的时间维度关联度, ρij为Xi与Xj的时间维度关联度, 由于x'i(s, t)=xi(s, t)+c, x'j(s, t)=xj(s, t)+c, 又(x'i(s, t))t '=(xi(s, t)+c)-(xi(s, t-1)+c)=xi(s, t)-xi(s, t-1)=(xi(s, t))t', (x'i(s, t))tt'=(xi(s, t+1)+c)+(xi(s, t-1)+c)-2(xi(s, t)+c)=xi(s, t+1)+xi(s, t-1)-2xi(s, t)=(xi(s, t))tt', 所以K'is(t)=Kis(t), 即ρ'ij(s, t)=ρij(s, t), ρ'ij=ρij.同理可得σ'ij=σij, 所以εij'=εij.
3 比较分析已知4组面板数据X0、X1、X2、X3, 行为指标维度, 列为时间维度, 具体如下:
其中: X0为特征样本矩阵, X1、X2、X3为行为样本矩阵.利用灰色曲率关联度公式计算得到ε01=0.666, ε02 = 0.764, ε03 = 0.727, 则关联序为
由图 1可见, 4组面板数据无论是时间维度还是指标维度, 面板数据X0与X1中的元素变化趋势均相反, 他们之间最不相似.面板数据X0、X2、X3发展趋势大致相似, 但X3数据波动较大, 所以面板数据X0与X2发展趋势比X0与X3的趋势要接近.利用文献[14]的关联度公式计算得到关联序为
为监测济南市大气环境质量状况, 分别在历下区(X1)、市中区(X2)、高新区(X3)、天桥区(X4)、槐荫区(X5)、历城区(X6)、长清区(X7)设置多个环境监测点, 同时设置一个对照子站跑马岭(X0).主要监测可吸入颗粒物(s1)、细颗粒物(s2)、二氧化硫(s3)、二氧化氮(s4)、一氧化碳(s5)和臭氧(s6), 其中指标s6的单位为mg/m3, 其他指标单位为μg/m3.数据来源于2015 ~ 2018年济南市环境质量简报, 具体数据见表 1.
由于各指标均为成本型指标, 选择成本型极差变换算子消除量纲量级的影响, 由面板数据灰色曲率关联度公式计算得到ε01=0.810, ε02=0.792, ε03=0.738, ε04=0.758, ε05=0.816, ε06=0.750, ε07=0.800.
根据灰色曲率关联度, 得到关联序为
本文基于离散曲线的离散曲率思想, 构建了基于面板数据的灰色曲率关联公式, 将面板数据分别投射为时间维度离散曲线和指标维度离散曲线.新的关联度公式不仅考虑了离散曲线的弯曲方向, 而且考虑了曲线的弯曲程度, 能够更好地反映面板数据的相关程度.新的模型更符合实际情况, 提高了实用性, 并且为研究面板数据型关联度提供了新的思路.
[1] |
Deng J L. Spread of grey relational space[J]. Journal of Grey Systems, 1995, 7(3): 96-100. |
[2] |
张岐山, 郭喜江, 邓聚龙. 灰关联熵分析方法[J]. 系统工程理论与实践, 1996, 16(8): 7-11. (Zhang Q S, Guo X J, Deng J L. Grey relation entropy method of relation analysis[J]. Systems Engineering-Theory & Practice, 1996, 16(8): 7-11.) |
[3] |
赵艳林, 韦树英, 梅占馨. 灰色欧几里德关联度[J]. 广西大学学报:自然科学版, 1998, 23(1): 10-13. (Zhao Y L, Wei S Y, Mei Z X. Grey Euclid relation grade[J]. Journal of Guangxi University: Natural Science Edition, 1998, 23(1): 10-13.) |
[4] |
唐五湘. T型关联度及其计算方法[J]. 数理统计与管理, 1995, 14(1): 33-37. (Tang W X. On grey incidence degree model of type T with its calculation[J]. Mathematical Statistics and Management, 1995, 14(1): 33-37.) |
[5] |
王清印. 灰色B型关联分析[J]. 华中理工大学学报, 1989, 16(6): 77-82. (Wang Q Y. On grey incidence degree model of type B[J]. Journal of Huazhong University of Science and Technology, 1989, 16(6): 77-82.) |
[6] |
党耀国, 刘思峰, 刘斌, 等. 灰色斜率关联度的改进[J]. 中国工程科学, 2004, 6(3): 41-44. (Dang Y G, Liu S F, Liu B, et al. Improvement on degree of grey slope incidence[J]. Engineering Science, 2004, 6(3): 41-44. DOI:10.3969/j.issn.1009-1742.2004.03.008) |
[7] |
刘勇, 刘思峰, Jeffrey Forrest. 一种新的灰色绝对关联度模型及其应用[J]. 中国管理科学, 2012, 20(5): 173-177. (Liu Y, Liu S F, Jeffrey F. A new grey absolute degree of grey incidence model and application[J]. Chinese Journal of Management Science, 2012, 20(5): 173-177.) |
[8] |
张可, 刘思峰. 灰色关联聚类在面板数据中的扩展及应用[J]. 系统工程理论与实践, 2010, 30(7): 1253-1259. (Zhang K, Liu S F. Extended clusters of grey incidence for panel data and its application[J]. System Engineering-Theory & Practice, 2010, 30(7): 1253-1259.) |
[9] |
郭昆, 张岐山. 基于灰关联分析的谱聚类[J]. 系统工程理论与实践, 2010, 30(7): 1260-1265. (Guo K, Zhang Q S. Spectral clustering based on grey relational analysis[J]. Systems Engineering-Theory & Practice, 2010, 30(7): 1260-1265.) |
[10] |
钱吴永, 王育红, 党耀国, 等. 基于多指标面板数据的灰色矩阵关联模型及其应用[J]. 系统工程, 2013, 31(10): 70-74. (Qian W Y, Wang Y H, Dang Y G, et al. Grey matrix relational modeling and its application based on multivariate panel data[J]. Systems Engineering, 2013, 31(10): 70-74. DOI:10.3969/j.issn.1001-2362.2013.10.045) |
[11] |
刘震, 党耀国, 钱吴永, 等. 基于面板数据的灰色网格关联度模型[J]. 系统工程理论与实践, 2014, 34(4): 991-996. (Liu Z, Dang Y G, Qian W Y, et al. Grey grid incidence model based on panel data[J]. System Engineering-Theory & Practice, 2014, 34(4): 991-996.) |
[12] |
吴鸿华, 穆勇, 屈忠锋, 等. 基于面板数据的接近性和相似性关联度模型[J]. 控制与决策, 2016, 31(3): 555-558. (Wu H H, Mu Y, Qu Z F, et al. The similarity and nearness relational degree based on panel data[J]. Control and Decision, 2016, 31(3): 555-558.) |
[13] |
罗党, 张曼曼. 基于面板数据的灰色B型关联模型及其应用[J]. 控制与决策. (Luo D, Zhang M M. The grey incidence model of B-mode based on panel data and its applicaiton[J]. Control and Decision. DOI:10.13195/j.kzyjc.2018.1054) |
[14] |
吴利丰, 刘思峰. 基于灰色凸关联度的面板数据聚类方法及应用[J]. 控制与决策, 2013, 28(7): 1033-1036. (Wu L F, Liu S F. Panel data clustering method based on grey convex relation and its application[J]. Control and Decision, 2013, 28(7): 1033-1036.) |
[15] |
郑兵云. 多指标面板数据的聚类分析及其应用[J]. 数理统计与管理, 2008, 27(2): 265-270. (Zheng B Y. The clustering analysis of multivariable panel data and its application[J]. Application of Statistics and Management, 2008, 27(2): 265-270.) |
[16] |
Cheng H. Analysis of panel data[M]. Cambridge: Cambridge University Press, 1988: 1-13.
|
[17] |
刘震, 党耀国, 周伟杰, 等. 新型灰色接近关联模型及其拓展[J]. 控制与决策, 2014, 29(6): 1071-1075. (Liu Z, Dang Y G, Zhou W J, et al. New grey nearness incidence model and its extension[J]. Control and Decision, 2014, 29(6): 1071-1075.) |