相关分析是从19世纪80年代发展起来的探讨随机变量之间统计关系的研究课题[1], 目前仍然是统计信号处理领域中的研究重点与难点.所谓相关, 是两个随机变量或信号之间的统计关系强弱程度的度量.具体来说, 如果一个随机变量随着另外一个随机变量的增大(减小)而增大(减小), 则该两个随机变量满足正相关关系; 反之, 如果一个随机变量随着另外一个随机变量的增大(减小)而减小(增大), 则该两个随机变量满足负相关关系[2].
文献中经典的相关系数有3种, 分别是由统计学奠基人Pearson提出的积矩相关系数(Pearson′s Product Moment Correlation Coefficient, PPMCC)[3-5], 心理学家Spearman提出的斯皮尔曼秩次相关系数(Spearman′s rho, SR)[6], 以及统计学家Kendall提出的肯德尔秩次相关系数(Kendall′s tau, KT)[6].基于众多研究者的努力,这3种经典相关系数在二元高斯模型下的统计特性已基本明确.统计学家Fisher发现了PPMCC在二元高斯模型下的概率密度函数的精确表达式, 并且证明了PPMCC是母体相关系数的渐近无偏最优估计, 其方差在样本数足够大时达到Cramer-Rao下限[4, 7].除了上述理论上的优点,PPMCC的算法复杂度与数据长度成正比, 运算速度快, 可以满足实时性的要求.因此, PPMCC在各领域的应用中都占据了主导地位.与PPMCC不同, 在二元高斯模型下, SR和KT的概率密度函数无法求得.在Kendall等一批统计学家的努力下,SR和KT的均值和方差的表达式已经推导出来[8-12].徐维超等证明了SR和KT相对于PPMCC的渐近相对效率(Asymptotic Relative Efficiency, ARE)最多达到91%[13].然而, 由于只用到样本的排序信息(秩次), SR和KT在单调非线性变换下性能保持不变, 因而更适应于一些非线性的场合[13].
除了3种经典的相关系数之外, 其他相关系数, 如基尼相关(Gini Correlation, GC)[14]和皮尔逊秩变量相关系数(Pearson′s rank-variate correlation coefficient, PRVCC)[15]也引起了研究者的关注. GC由以色列经济学家所提出[14], 在经济学领域已经得到了广泛的应用, 并开始向生物学、社会科学和信号处理等领域延伸.经过徐维超及其合作者的努力[11], GC在二元高斯样本下的均值和方差也已经得到了证明.虽然早在1914年就已经由Pearson提出[15], PRVCC在二元高斯模型下的统计特性一直未取得突破.然而,如后文所示,从定义上可以推测,GC和PRVCC应具有类似的统计特性.
上述所有理论结果, 都是基于二元高斯模型,即假设两个随机变量符合一个联合母体相关系数为ρ的高斯分布.尽管具有数学上的优点,高斯模型只是一种理想化的近似.在现实世界中, 所采集的数据通常会受到脉冲噪声的污染,即样本中含有极少量方差巨大的异常值(外值)[16-19].为了模拟这种情况,文献中通常采用二元高斯混合模型(Contaminated Gaussian Model, CGM)进行建模[20].
本文的目的是在二元高斯混合模型下,对上述5种相关系数的稳健性进行比较与分析.具体内容包括:相关系数的基本定义和性质, 噪声模型的介绍, 多种相关系数在不同样本数据模型下的统计特性, 各种相关系数在不同环境下的适用性分析.后文将按照这一结构展开论述.
1 基本定义 1.1 相关系数定义令{(Xi, Yi)}i=1n表示n对由二元连续分布母体产生的独立同分布数据对.把数据对序列{(Xi, Yi)}i=1n, 按{Xi}i=1n升序排列, 可以得到一组新的数据对序列{(X(i), Y[i])}i=1n, 其中X(1) < … < X(n)为关于X的序统计量, 相应的Y[i]则称之为X(i)的伴随.假设Xj位于序列{X(i)}i=1n中第k个位置, 则定义数字k为Xj的秩次, 记为Pj.类似地把Yj的秩次定义为Qj[6].令X和Y分别代表Xi和Yi的算术平均, sgn(·)为符号函数.则3种经典相关系数PPMCC (rP)、SR (rS)以及KT (rK)的定义分别为[2, 21-22]:
$ {r_P}\left( {{X_i},{Y_i}} \right)\;\;\frac{{\sum\limits_{i = 1}^n {\left( {{X_i} - \bar X} \right)\left( {{Y_i} - \bar Y} \right)} }}{{{{\left[ {\sum\limits_{i = 1}^n {{{\left( {{X_i} - \bar X} \right)}^2}} \sum\limits_{i = 1}^n {{{\left( {{Y_i} - \bar Y} \right)}^2}} } \right]}^{\frac{1}{2}}}}}, $ | (1) |
$ {r_S}\left( {{X_i},{Y_i}} \right)\;\;1 - \frac{{6\sum\limits_{i = 1}^n {{{\left( {{P_i} - {Q_i}} \right)}^2}} }}{{n\left( {{n^2} - 1} \right)}}, $ | (2) |
$ {r_K}\left( {{X_i},{Y_i}} \right)\;\;\frac{{\sum\limits_{i \ne 1}^n {\sum\limits_{j \ne 1}^n {{\mathop{\rm sgn}} \left( {{X_i} - {X_j}} \right){\mathop{\rm sgn}} \left( {{Y_i} - {Y_j}} \right)} } }}{{n\left( {n - 1} \right)}}. $ | (3) |
另外两种相关系数GC(rG)[11]和PRVCC(rH)[23]分别定义为:
$ {r_G}\left( {{Y_i},{X_i}} \right) = \frac{{\sum\limits_{i = 1}^n {\left( {2{P_i} - 1 - n} \right){Y_i}} }}{{\sum\limits_{i = 1}^n {\left( {2{Q_i} - 1 - n} \right){Y_i}} }}, $ | (4) |
$ {r_H}\left( {{Y_i},{X_i}} \right) = {\left[ {\frac{{3n}}{{n + 1}}} \right]^{\frac{1}{2}}}\frac{{\frac{1}{{n\left( {n - 1} \right)}}\sum\limits_{i = 1}^n {\left( {2{P_i} - 1 - n} \right){Y_i}} }}{{{{\left[ {\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{\left( {{Y_i} - \bar Y} \right)}^2}} } \right]}^{\frac{1}{2}}}}}. $ | (5) |
令r一般地表示相关系数, 则上述各种相关系数的共性有:
(1) 归一化, r的取值在区间[-1, 1]内;
(2) 当Y和X严格线性相关或满足单调上升、单调下降关系时, r=±1;
(3) 当X和Y彼此统计独立时, r的均值为0;
(4) r(+, +)=-r(-, +)=-r(+, -)=r(-, -);
(5) 当样本数n足够大时, r趋于高斯分布.
各种相关系数独有的性质:
(1) PPMCC、SR和KT满足对称性, GC和PRVCC则不然;
(2) PPMCC、SR和KT可以统一为广义相关系数(Daneils Generalized Correlation Coefficient)[24].
需要指出, 从定义式(1)~(5)中可以看到, 在各种相关系数的计算过程中使用数据值和秩次的信息不尽相同.据此, 可以把上述5种相关系数分为3类:
(1) 完全利用数据值信息的PPMCC;
(2) 利用一个变量的数据值信息和另一个变量的秩信息的GC和PRVCC;
(3) 完全利用秩信息的SR和KT.
1.2 二元高斯混合模型在双变量或双通道相关分析中, 噪声干扰的情况可以分为两类.一类是单通道的噪声干扰, 另一类是双通道的噪声干扰.与此相对应, 两种噪声模型可以分别建立, 统称为混合高斯模型(Contaminated Gaussian Model, CGM).
单通道的混合高斯模型(Signal-Channel Contaminated Gaussian Model, SCGM)的概率密度函数(probability density function, pdf)如下:
$ \begin{array}{l} \left( {1 - \varepsilon } \right){\cal N}\left( {{\mu _x},{\mu _y},\sigma _x^2,\sigma _y^2,\rho } \right) + \varepsilon {\cal N}\left( {{{\mu '}_x},{{\mu '}_y},} \right.\\ \left. {\sigma {'}_x^2,\sigma {'}_y^2,\rho '} \right). \end{array} $ | (6) |
其中,
与(6)类似, 双通道混合高斯模型(Double-Channel Contaminated Gaussian Model, DCGM)的概率密度函数由下式定义:
$ \begin{array}{l} \left( {1 - \varepsilon } \right){\cal N}\left( {{\mu _x},{\mu _y},\sigma _x^2,\sigma _y^2,\rho } \right) + \varepsilon {\cal N}\left( {{{\mu '}_x},{{\mu '}_y},} \right.\\ \left. {\sigma {'}_x^2,\sigma {'}_y^2,\rho '} \right). \end{array} $ | (7) |
其中,
式(6)和(7)在表达形式上相同, 区别在于σ′y与σy之间的关系不同.
2 SCGM下的性能分析马如豹、徐维超等[23]证明了PRVCC在SCGM下, 当数据样本的数量n足够大时, 其均值和方差的渐进闭式表达式为:
$ \begin{gathered} \mathbb{E}\left( {{r_H}} \right) \simeq \sqrt {\frac{3}{\rm{\pi }}} \rho \left[ {\left( {1 - 2\varepsilon } \right)\left( {1 - \frac{3}{{4n}} + \frac{{{\rho ^2}}}{{2n}}} \right)} \right] + \hfill \\ \sqrt {\frac{6}{\rm{\pi }}} \varepsilon \rho '\left( {1 + \frac{1}{{4n}} - \frac{1}{{\sqrt 2 n}} + \frac{{{{\rho '}^2}}}{{2n}}} \right), \hfill \\ \end{gathered} $ | (8) |
$ \begin{gathered} \mathbb{V}\left( {{r_H}} \right) \simeq \frac{1}{n}\left[ {1 + \frac{{3{\rho ^2}}}{\rm{\pi }}\left( {2\sqrt 3 - \frac{{11}}{2}} \right) + \frac{{3{\rho ^4}}}{\rm{\pi }}} \right] - \hfill \\ \frac{{6\varepsilon }}{{n{\rm{\pi }}}}\left[ {\left( {2\sqrt 3 - 7} \right){\rho ^2} + {{\rho '}^2} + 2{\rho ^4}} \right] - \hfill \\ \frac{{3\sqrt 2 \varepsilon \rho \rho '}}{{n{\rm{\pi }}}}\left( {3 - {\rho ^2} - {{\rho '}^2}} \right). \hfill \\ \end{gathered} $ | (9) |
此外, 在同一篇论文中,3种经典的相关系数PPMCC、SR和KT在SCGM下均值的闭式表达式也由作者导出[25]:
$ \mathbb{E}\left( {{r_P}} \right) \simeq \sqrt \varepsilon \rho ', $ | (10) |
$ \mathbb{E}\left( {{r_S}} \right) \simeq \frac{6}{\rm{\pi }}\left[ {\left( {1 - 2\varepsilon } \right){{\sin }^{ - 1}}\frac{\rho }{2} + \varepsilon {{\sin }^{ - 1}}\frac{{\rho '}}{{\sqrt 2 }}} \right], $ | (11) |
$ \mathbb{E}\left( {{r_K}} \right) \simeq \frac{2}{\rm{\pi }}\left[ {\left( {1 - 2\varepsilon } \right){{\sin }^{ - 1}}\rho + 2\varepsilon {{\sin }^{ - 1}}\frac{{\rho '}}{{\sqrt 2 }}} \right]. $ | (12) |
从式(10)可以看出, PPMCC只与干扰ρ′有关, 与真正想估计的母体相关系数ρ无关.也就是说, PPMCC完全丢失了母体相关系数的信息, 说明PPMCC在单通道的脉冲噪声干扰下失效.而PRVCC、SR和KT都可以在相当大的程度上抑制ε和ρ′的影响, 对脉冲噪声表现出较好的抗干扰能力.
由式(8)、(11)和(12)可以分别定义PRVCC、SR和KT对母体相关系数的无偏估计[25]:
$ {{\hat \rho }_H}\;\;\sqrt {\frac{\rm{\pi }}{3}} {r_H}, $ | (13) |
$ {{\hat \rho }_S}\;\;2\sin \left( {\frac{\rm{\pi }}{6}{r_S}} \right), $ | (14) |
$ {{\hat \rho }_K}\;\;\sin \left( {\frac{\rm{\pi }}{2}{r_K}} \right). $ | (15) |
通过均方根误差(Root Mean Squared Error, RMSE)仿真分析, PRVCC在SCGM的场景下更有优势. GC与PRVCC在计算中所利用的数据信息方面以及计算表达式上都相类似, 它们在SCGM下的性能也相近.
3 DCGM下的性能分析从上述分析中可知, PPMCC对单通道脉冲噪声极其敏感.可以预见, 在双通道脉冲噪声的干扰下, PPMCC的抗干扰能力仍然很差; 同时, PRVCC和GC因为直接使用了一个通道的数值信息, 也不具备在DCGM下的稳定性.
对于SR和KT, 徐维超等[13]证明了在DCGM下, 样本数量n足够大时, SR和KT的均值的闭式表达式为
$ \mathbb{E}\left( {{r_S}} \right) \simeq \frac{6}{\rm{\pi }}\left[ {\left( {1 - 3\varepsilon } \right){{\sin }^{ - 1}}\frac{\rho }{2} + \varepsilon {{\sin }^{ - 1}}\rho '} \right], $ | (16) |
$ \mathbb{E}\left( {{r_K}} \right) \simeq \frac{2}{\rm{\pi }}\left[ {\left( {1 - 2\varepsilon } \right){{\sin }^{ - 1}}\rho + 2\varepsilon {{\sin }^{ - 1}}\rho '} \right]. $ | (17) |
对比式(11)与(16)、(12)与(17), 两组等式的差别不大, 但都表现出了在DCGM下ε和ρ′的影响更大, SR和KT的稳健性有所下降.从式(16)和(17)可以得出SR和KT在DCGM下对母体相关系数的无偏估计量与SCGM下的一致, 即式(14)和(15).
4 结论本文介绍了两种脉冲噪声下的数据模型, SCGM和DCGM, 并且总结了PPMCC, SR, KT, GC和PRVCC等5种相关系数在SCGM下的统计特性, 以及SR和KT在DCGM下的均值.总结上述分析可以得到如下结论:
(1) 在样本数据存在脉冲噪声干扰的情况下, PPMCC对母体相关系数的估计由噪声主导, 基本失效;
(2) 在只有一个变量或通道的样本数据受到脉冲噪声的干扰而另一个变量或通道的样本数据未受污染的情况下, PRVCC和GC比较有优势;
(3) 当两个变量或通道的样本数据都受到脉冲噪声的干扰时, SR和KT有更好的稳健性.
[1] |
Speed T. A correlation for the 21st century[J].
Science, 2011, 334(6062): 1502-1503.
DOI: 10.1126/science.1215894. |
[2] |
Gibbons J D, Chakraborti S. Nonparametric Statistical Inference[M]. 3rd. New York: M. Dekker, 1992.
|
[3] |
Fisher R A. Statistical Methods, Experimental Design, and Scientific Inference[M]. New York: Oxford University Press, 1990.
|
[4] |
Fisher R A. On the 'probable error' of a coefficient of correlation deduced from a small sample[J].
Metron, 1921, 1: 3-32.
|
[5] |
Fieller E C, Hartley H O, Pearson E S. Tests for rank correlation coefficients. I[J].
Biometrika, 1957, 44(3/4): 470-481.
DOI: 10.2307/2332878. |
[6] |
Kendall M, Gibbons J D. Rank Correlation Methods[M]. New York: Oxford University Press, 1990.
|
[7] |
Fisher R A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population[J].
Biometrika, 1915, 10(4): 507-521.
|
[8] |
Moran P A P. Rank correlation and product-Moment Correlation[J].
Biometrika, 1948, 35(1/2): 203-206.
|
[9] |
Esscher F. On a method of determining correlation from the ranks of the variates[J].
Skand. Aktuar, 1924, 7: 201-219.
|
[10] |
David F N, Mallows C L. The variance of Spearman's rho in normal samples[J].
Biometrika, 1961, 48(1/2): 19-28.
DOI: 10.2307/2333126. |
[11] |
Xu W, Hung Y S, Niranjan M, et al. Asymptotic mean and variance of Gini correlation for bivariate normal samples[J].
IEEE Trans Signal Process, 2010, 58(2): 522-534.
|
[12] |
徐维超. 相关系数研究综述[J].
广东工业大学学报, 2012, 29(3): 12-17.
Xu W C. A review on correlation coefficients[J]. Journal of Guangdong University of Technology, 2012, 29(3): 12-17. |
[13] |
Xu W, Hou Y, Hung Y, et al. A comparative analysis of Spearman's rho and Kendall's tau in normal and contaminated normal models[J].
Signal Processing, 2013, 93(1): 261-276.
|
[14] |
Schechtman E, Yitzhaki S. A measure of association base on Gini's mean difference[J].
Commun Statist Theor Meth, 1987, 16(1): 207-231.
DOI: 10.1080/03610928708829359. |
[15] |
Pearson K. On an extension of the method of correlation by grades or ranks[J].
Biometrika, 1914, 10(2/3): 416-418.
|
[16] |
Tumanski S. Principles of electrical measurement[M]. New York: Taylor & Francis, 2006.
|
[17] |
Stein D. Detection of random signals in Gaussian mixture noise[J].
IEEE Trans Inf Theory, 1995, 41(6): 1788-1801.
DOI: 10.1109/18.476307. |
[18] |
Chen R, Wang X, Liu J. Adaptive joint detection and decoding in flat-fading channels via mixture K alman filtering[J].
IEEE Trans Inf Theory, 2000, 46(6): 2079-2094.
DOI: 10.1109/18.868479. |
[19] |
Reznic Z, Zamir R, Feder M. Joint source-channel coding of a Gaussian mixture source over the Gaussian broadcast channel[J].
IEEE Trans Inf Theory, 2002, 48(3): 776-781.
DOI: 10.1109/18.986045. |
[20] |
Shevlyakov G L, Vilchevski N O. Robustness in Data Analysis: Criteria and Methods[M]. Utrecht: VSP, 2002.
|
[21] |
Xu W, Chang C, Hung Y S, et al. Order statistics correlation coefficient as a novel association measurement with applications to biosignal analysis[J].
IEEE Trans Signal Process, 2007, 55(12): 5552-5563.
DOI: 10.1109/TSP.2007.899374. |
[22] |
Xu W, Chang C, Hung Y S, et al. Asymptotic properties of order statistics correlation coefficient in the normal cases[J].
IEEE Trans Signal Process, 2008, 56(6): 2239-2248.
DOI: 10.1109/TSP.2007.916127. |
[23] |
Ma R, Xu W, Zhang Y, et al. Asymptotic properties of pearson's rank-variate correlation coefficient under contaminated Gaussian model[J].
PLoS One, 2014, 9(11): e112215.
DOI: 10.1371/journal.pone.0112215. |
[24] |
Daniels H E. The relation between measures of correlation in the universe of sample permutations[J].
Biometrika, 1944, 33(2): 129-135.
|
[25] |
Ma R, Xu W, Wang Q, et al. Robustness analysis of three classical correlation coefficients under contaminated Gaussian model[J].
Signal Processing, 2014, 104: 51-58.
DOI: 10.1016/j.sigpro.2014.04.003. |