中国海洋大学学报自然科学版  2020, Vol. 50 Issue (11): 129-138  DOI: 10.16441/j.cnki.hdxb.20180263

引用本文  

孙志华, 谢向东, 焦东方. Cox比例风险模型的弹性SCAD变量选择方法及应用[J]. 中国海洋大学学报(自然科学版), 2020, 50(11): 129-138.
SUN Zhi-Hua, XIE Xiang-Dong, JIAO Dong-Fang. Elastic SCAD Variable Selection and Its Application in Cox Model[J]. Periodical of Ocean University of China, 2020, 50(11): 129-138.

基金项目

山东省自然科学基金项目(ZR2016DQ09)资助
Supported by the Natural Science Foundation of Shandong Province of China(ZR2016DQ09)

作者简介

孙志华(1977-), 女,博士生,讲师,主要从事生物统计研究。E-mail:zhihuasun@ouc.edu.cn

文章历史

收稿日期:2019-04-06
修订日期:2019-06-25
Cox比例风险模型的弹性SCAD变量选择方法及应用
孙志华1 , 谢向东2 , 焦东方1     
1. 中国海洋大学数学科学学院, 山东 青岛 266100;
2. 东北师范大学数学与统计学院, 吉林 长春 130024
摘要:本文对基于Cox比例风险模型的弹性SCAD变量的选择方法进行了研究, 证明了弹性SCAD方法在进行变量选择时具有Oracle性质、渐近正态性及组效应。通过数值模拟, 将弹性SCAD与几种常见变量选择方法作了比较, 得出几种不同参数设定下的变量选择结果。通过肺癌实际数据比较了弹性SCAD方法和其他常见变量选择方法。研究结果表明, 弹性SCAD方法选出的变量与临床结论一致并发现了需要进一步深入研究的变量。
关键词变量选择    弹性SCAD    Cox模型    组效应    Oracle性质    

变量选择问题是统计领域中的研究方向之一。基于惩罚思想的变量选择方法(也称正则化回归方法),在选出变量的同时也对变量参数作出了估计,其计算量相对较小,相比其他变量选择方法呈现出诸多优越性。这使得,以Lasso为代表的基于惩罚的变量选择方法得到广泛研究,出现了一系列基于惩罚的变量选择方法:Bridge、Lasso、SCAD、Elastic Net、Adaptive Lasso、Dantzig Selector、MCP等。虽然Lasso具有较好的预测结果,但一般情况下Lasso结果是有偏的,在严格的条件假设下才具有相合性,并且Lasso不具有oracle性质[1]。而SCAD、Adaptive Lasso、Dantzig Selector以及MCP具有oracle性质。West等[2]提出当“large p, small n”时,要特别重视成组变量(Grouped variables)的问题。针对此类问题,Hastie等[3]、Díaz-Uriarte[4]提出了主成分分析法,Hastie等[5]提出了监督tree harvesting方法,Dettling和Bühlmann[6]将聚类和有监督学习结合在了一起,Segal等[7]论证了正则化回归方法处理成组变量的优势,Zou和Hastie[8]提出了变量选择方法的组效应(Grouping effect)。Lasso处理成组变量的效果非常差,而SCAD、Elastic Net、Adaptive Lasso、Dantizig Selector、MCP中,仅Elastic Net方法具有组效应。

由于生存数据的删失性,完全数据的变量选择方法不能直接应用于生存数据,因而一些学者研究了Cox比例风险模型(简称之为Cox模型)的变量选择问题:Tibshirani[9]、Fan和Li[10]分别将Lasso、SCAD应用于Cox模型,Li和Luan[11]提出了Cox核转换方法,Zhang和Lu[12], Zou[13]将Adaptive Lasso应用到Cox模型,闫丽娜[14]将Elastic Net与Cox模型结合,侯文[15]研究了Cox模型的桥估计(Bridge),邓秋玲[16]研究了SCAD和Adaptive Dantizig Selector在Cox模型中的应用,刘丹等[17]研究了Adaptive Elastic Net在Cox模型中的应用。

为了使高维生存数据的Cox模型的变量选择方法既有oracle性质,又具有组效应,本文提出了Cox模型的弹性SCAD方法,并证明了弹性SCAD方法的统计性质,通过数值模拟,比较了在Cox模型下,弹性SCAD与Lasso、Adaptive Lasso、SCAD、Elastic Net、Adaptive Elastic Net等方法的变量选择结果,得到了弹性SCAD在某些情况下的优越性,最后再结合实例,探讨了弹性SCAD及其他变量选择方法应用于Cox模型处理生存数据的表现优劣。

1 基于Cox模型的弹性SCAD方法及性质

首先,我们给出Cox模型的弹性SCAD方法的估计:

$ \mathit{\boldsymbol{\hat \beta }} = \mathop {{\rm{argmin}}}\limits_\beta \{ - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + \sum\nolimits_{j = 1}^p {{P_{{\lambda _1},{\lambda _2}}}} ({\beta _j})\} 。$ (1)

式中:ln(β)表示Cox模型的对数偏似然函数[5]$\ln (\mathit{\boldsymbol{\beta }}) = \sum _{i = 1}^n {{\delta _i}} \left[ {{\mathit{\boldsymbol{x}}_i}\mathit{\boldsymbol{\beta }} - \ln \left( {\sum _{j \in R\left( {{t_i}} \right)} {{{\rm{e}}^{{\mathit{\boldsymbol{x}}_i}\mathit{\boldsymbol{\beta }}}}} } \right)} \right] $;

$ \begin{array}{*{20}{l}} {{P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }}) = {f_{{\lambda _1}}}(\mathit{\boldsymbol{\beta }}) + {\lambda _2}{{\left\| \mathit{\boldsymbol{\beta }} \right\|}^2} = \sum\limits_{i = 1}^p {{f_{{\lambda _1}}}} (\mathit{\boldsymbol{\beta }}) + }\\ {{\lambda _2}\sum\limits_{i = 1}^p {\beta _j^2} }。\end{array} $

R(ti)表示ti时刻的危险集,δi是表示是否删失的示性函数。$ \gamma>2, \lambda_{1}>0, \lambda_{2}>0$为调整参数

$ \boldsymbol{x}_{i}=\left(x_{i 1}, x_{i 2}, \cdots, x_{i p}\right)$,表示矩阵X的第i行。

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} p_{{\lambda _1},{\lambda _2}}^\prime ({\beta _j}) = \\ \left\{ \begin{array}{l} {\lambda _1} {\rm{sgn}} ({\beta _j}) + 2{\lambda _2}{\beta _j},|{\beta _j}| < {\lambda _1}\\ - \frac{{{\beta _j} - \gamma {\lambda _1} {\rm{sgn}} ({\beta _j})}}{{\gamma - 1}} + 2{\lambda _2}{\beta _j},{\lambda _1} \le |{\beta _j}| < \gamma {\lambda _1},\\ 2{\lambda _2}{\beta _j},|{\beta _j}| \ge \gamma {\lambda _1} \end{array} \right. \end{array} $ (2)
$ {p^{\prime \prime }}_{{\lambda _1},{\lambda _2}}({\beta _j}) = \left\{ {\begin{array}{*{20}{l}} {2{\lambda _2},|{\beta _j}| < {\lambda _1}}\\ { - \frac{1}{{\gamma - 1}} + 2{\lambda _2},{\lambda _1} \le |{\beta _j}| < \gamma {\lambda _1}}。\\ {2{\lambda _2},|{\beta _j}| \ge \gamma {\lambda _1}} \end{array}} \right. $ (3)

根据弹性SCAD罚函数的二阶导函数易知,当调整参数满足条件:$\lambda_{1}>0, \gamma>1, \lambda_{2}>\frac{1}{2(\gamma-1)} $时,弹性SCAD罚函数为关于β的严格凸函数。

$ 记Q(\mathit{\boldsymbol{\beta }}) = - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + {P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }})。$ (4)

我们可以得出基于Cox比例风险模型的弹性SCAD方法有以下性质(证明见附录):

性质1  若$\boldsymbol{x}_{i}=\boldsymbol{x}_{j}, i \neq j, i, j \in\{1, 2, \cdots, n\}, \lambda_{1}>0, \gamma>1, \lambda_{2}>\frac{1}{2(\gamma-1)} $,则$\hat{\beta}_{i}=\hat{\beta}_{j} $

性质2(变量选择的组效应)  记β*为真实参数向量,若$\beta_{i}^{*} \cdot \beta_{j}^{*}>0, \lambda_{2}>\frac{1}{2(\gamma-1)}, i, j \in\{1, 2, \cdots, n\}, D(i, j)=C\left|\beta_{i}^{*}-\beta_{j}^{*}\right| $,则

$ D(i,j) < ma + \sqrt {2(1 - \rho )} ; $

式中$\rho=\boldsymbol{x}_{i}^{\mathrm{T}} \cdot \boldsymbol{x}_{j} ; C=2 \lambda_{2}-\frac{1}{\lambda-1} $;

$ \begin{array}{*{20}{l}} {a = {\rm{max}}\{ |{\mathit{\boldsymbol{x}}_{ij}} - {\mathit{\boldsymbol{x}}_{i\tau }}|\} ,i \in \{ 1,2, \cdots ,n\} ,j,\tau \in \{ 1,2,}\\ { \cdots ,p\} }。\end{array} $

性质3(估计一致性)  若$n \rightarrow+\infty, \lambda_{1}(n) \rightarrow 0 , \sqrt{n} \lambda_{2}(n) \rightarrow 0$,则存在Q(β)的一个局部最优解$ \hat{\boldsymbol{\beta}}(n), $满足$ \left\|\hat{\boldsymbol{\beta}}(n)-\boldsymbol{\beta}^{*}\right\|=o_{p}\left(b_{n}\right)$, 其中$a=\max \left\{p_{\lambda_{1}, \lambda_{j}}^{\prime}\left(\left|\beta_{j}^{*} \neq 0\right|\right)\right\}, b_{n}=n^{-\frac{1}{2}}+a $

性质4(Oracle性质)  若$ n \rightarrow \infty, \lambda_{1}(n) \rightarrow 0, \sqrt{n} \lambda_{1}(n) \rightarrow+\infty, \sqrt{n} \lambda_{2}(n) \rightarrow 0, $$\hat{\boldsymbol{\beta}}(n)=\left(\begin{array}{c} \hat{\boldsymbol{\beta}}_{N}(n) \\ \hat{\boldsymbol{\beta}}_{Z}(n) \end{array}\right) $, 满足

(1) 稀疏性: $ P\left\{\hat{\boldsymbol{\beta}}_{Z}(n)=\boldsymbol{0}\right\}=1$;

(2) 渐近正态性:$\sqrt{n}\left(\hat{\boldsymbol{\beta}}(n)-\boldsymbol{\beta}^{*}\right) \stackrel{D}{\longrightarrow} N_{p}(\boldsymbol{0}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}) $

式中$\hat{\boldsymbol{\beta}}_{N}(n) $表示非零系数矩阵的估计; $\hat{\boldsymbol{\beta}}_{N}(n) $表示零系数矩阵的估计; $ \boldsymbol{\beta}^{*}=\left(\begin{array}{l} \boldsymbol{\beta}_{N}^{*} \\ \boldsymbol{\beta}_{Z}^{*} \end{array}\right)$表示真实参数矩阵; $ \boldsymbol{\beta}_{N}^{*}$表示d维非零系数矩阵, $ \boldsymbol{\beta}_{Z}^{*}$表示(p-d)维零系数矩阵, Σ表示偏似然估计方程的方差。

性质5 (方差估计的渐近性)

$ {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1}(\mathit{\boldsymbol{\hat \beta }}(n))\mathop \to \limits^p {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1}({\mathit{\boldsymbol{\beta }}^*}),n \to \infty 。$

式中:${\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1}(\mathit{\boldsymbol{\hat \beta }}(n)) $表示弹性SCAD惩罚偏似然估计方程的方差,即$\frac{Q(\boldsymbol{\beta})}{\beta_{s}}=-\left.\frac{\ln (\boldsymbol{\beta})}{\beta_{s}}\right|_{\beta=\hat{\beta}(n)}+n p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{s}\right)=0$的方差。

性质1~5的证明见附录。

2 数值模拟

弹性SCAD方法可以看作是SCAD方法和岭回归的结合,具有Oracle性质,其克服了Elastic Net有偏估计的缺点,属于渐近无偏估计。与SCAD相比,具有组效应,且与同样具有组效应的Elastic Net (ENet)、Adaptive elastic net(AENet)相比,其在处理小样本高维数据、变量间存在高度共线性问题与小样本低维、变量间存在弱相关关系两种情况下表现更优。

本部分数据模拟选用十折交叉验证,研究的目的是通过运用基于Cox模型的Lasso、Adaptive lasso(Alasso)、ENet、AENet、SCAD、弹性SCAD(Escad) 6种变量选择方法,对模拟生成的高维、并具有不同共线性强弱的生存数据进行变量选择,比较其变量筛选效果以及模型误差等指标,进而评价各种方法的优劣。

数值模拟的参数设置情况如下:设样本量为n, 协变量个数为p,生成n×p的数据矩阵X,除前2列外,其余各列服从标准的多元正态分布,第一列数据服从一元标准正态分布,第二列数据与第一列数据之间的相关系数分别设为r(v1, v2)=0.8、0.5和0.2,分别代表变量和间存在强共线性、中等共线性和弱共线性的情况。参数设置为:

$ \mathit{\boldsymbol{v}} = ({v_1},{v_2},{v_3}, \cdots ,{v_p}) = (0.8,0.7,1, - 0.6,0,0, \cdots ,0)。$

当变量v1v2间存在共线性且为重要变量时,若所用变量选择方法同时将v1v2选进模型,则说明该方法具有变量选择的组效应,否则,说明其没有变量选择的组效应。生存时间删失率设为0.3。

利用R软件进行蒙特卡洛模拟抽样100次(主要用到的包为ncvreg、Coxnet、survial、Matrix),结果见表 1。其中真阳性表示选对非零系数的个数,假阳性表示错选非零系数的个数; noise表示除变量前4个系数外,其他非零系数绝对值之和; main表示变量中前4个变量绝对值之和; bias=|main-m|,表示前4个估计系数与真实系数之间偏差的绝对值,用来衡量系数估计的优劣,其中$ m=\sum\limits_{i=1}^{4}\left|\hat{\beta}_{i}\right|$; 模型误差=noise×bias,表示noise与bias表示noise与bias的乘积,用来衡量模型误差,之所以用误差而不是cve(交叉验证模型误差)或cvse(交叉验证标准误差)来衡量,主要是因为ncvreg包中关于交叉验证的定义并不明确,无法计算cvse,只能得出cve,而Coxnet包中仅能计算cvse,且cvse与cve之间的换算并不清楚,这导致二者对模型误差的衡量标准不统一,故采用新的衡量方法,易知noise和bias越小,模型误差越小,故用二者的乘机来衡量模型的误差较为合理。

表 1 部分数值模拟结果 Table 1 Partial numerical simulation results

图 1可以看出,SCAD相比于Lasso、Alasso,其模型误差较小,模型稳定性强; 弹性SCAD相比于Enet、AENet,由于其具有Oracle性质,故模型误差较小,模型稳定性强,虽然AENet也具有Oracle性质,但模型表现不如Escad稳定。

图 1 6种方法在模型误差方面的表现(相关系数为0.8) Fig. 1 The performance of six methods in model error(correlation coefficient 0.8)

图 2给出了当n=100, p=10且相关系数为0.8时,弹性SCAD与SCAD的求解路径的比较,其中图 2(a)为弹性SCAD,图 2(b)为SCAD。

(n=100, p=10, r(v1, v2)=0.8。曲线1~4分别为v1~v4的估计值。n=100, p=10, r(v1, v2)=0.8. line 1~4 are the estimators of variables v1~v4. ) 图 2 弹性SCAD(a)与SCAD(b)的求解路径 Fig. 2 Solution path comparison of elastic SCAD(a) and SCAD(b)

结合图 12可以看出,弹性SCAD在保留了SCAD变量选择优点的同时,克服了SCAD方法在进行变量选择时不具有组效应的缺点,在变量间存在高度相关性时,能够把相关的变量同时选进模型,具有变量选择的组效应。

从数据模拟结果可以看出:不具有变量选择组效应的方法是基于Cox模型的Lasso、Alasso、SCAD; 具有变量选择组效应的方法是ENet、AENet、弹性SCAD。其中三者在对于有组效应的变量选择方法,在n=100, p=50, 变量间存在强相关关系与n=100, p=10, 变量间存在弱相关关系两种情况下,弹性SCAD模型误差最小,系数估计方面也表现最佳; 在n=500, p=10情况、变量间存在非强(中等强度及较弱强度)相关关系时,弹性SCAD在系数估计方面表现最佳; 在n=100, p=50情况,变量间存在弱相关关系时,弹性SCAD的模型误差最小。基于Cox模型的Lasso和Alasso均倾向于多选变量,而SCAD与二者相比,虽然也存在假阳性,但除小样本低维、变量间存在弱相关性的情况外,其假阳性的个数均小于二者,故变量选择的一致性方面,SCAD优势明显; 基于Cox模型的ENet、AENet和弹性SCAD均倾向于多选变量,而弹性SCAD与二者相比,虽然也存在假阳性,但在n=100, p=50情况下假阳性的个数均小于二者,故变量选择的一致性方面,此情况下基于Cox模型的弹性SCAD方法最优。当n=100, p=200时,不具有变量选择组效应的方法是基于Cox模型的Lasso、Alasso、SCAD; 具有变量选择组效应的方法仍是基于Cox模型的ENet、AENet、弹性SCAD; 在变量间3种不同程度的相关关系情况下,基于Cox模型的弹性SCAD相比于ENet和AENet方法,均具有较少的噪声系数、较低的模型误差。

3 实例分析

本实例数据来源于Kalbfleish和Prentice的一组肺癌治疗方案的临床试验数据[18],这是一个标准的生存分析数据集。我们对这组数据利用前文提到的6种方法进行变量选择,结果见表 2

表 2 对肺癌数据进行变量选择的结果 Table 2 The result of variable selection forlung cancer data

由于Diagnosis time, age和prior的值均为0,可以判定其对研究对象的生存时间没有影响; 结合Escad、Enet、AENet的选择结果,可知small为噪声系数,对结果没有明显影响; 若假设变量间存在相关性,结合数值模拟结果可知,在小样本低维数情况下,AENet表现最优,故理论上其选择的非零个数要比SCAD、Lasso、Alasso要多,而结合表 2中数据可知,这4种方法选出的非零个数并无明显差异,甚至不具有组效应的Lasso要比AENet选的还多,这说明这些变量间是不具有相关关系。

卡式评分(Karnofsky score)表现得分越高,健康状况越好,越能忍受治疗给身体带来的副作用,因而也就有可能接受彻底的治疗,6种方法均将其选出,比较符合实际; 肺小细胞癌是肺癌中最凶恶的,坏死典型且呈广泛性,扩散转移快; 而与之对应的,鳞状细胞癌(鳞癌)、腺癌、大细胞癌均为非小细胞型肺癌,与小细胞癌相比,它们扩散转移相对较晚。故根据实际,可把鳞状细胞癌、胰癌、大细胞癌看作一组变量,表 2中只有Escad、ENet、Lasso 3种方法同时选进了这3种变量,比较符合实际。但Lasso不具有组效应,故其虽然选进了这3种变量,应该是作为噪声变量选入的,系数估计会很差,故与实际相差比较大; 而AENet作为在ENet的基础上的一种改进,却没有将这3种因素同时选入模型,可见ENet选入这3种变量是因为此方法会多选变量。综上,可推知影响研究对象生存时间的主要因素有:Treatment、Karnofsky、squamous、adeno和large影响效用系数分别为:0.099、-0.028、-0.683、0.296和-0.334。

即癌症类型是否为非小细胞癌,是决定生存时间的因素。更进一步,其中是否为鳞状细胞癌的指标为主要决定因素。Karnofsky表现得分虽然对生存时间有影响,但是相对来说其影响是次要的,不起决定性作用。再对比文献[12]中研究结果,可知本文上述研究结果与之相符,但治疗指标trt是否为有效影响因素,对比之下难以确定,有待进一步研究。由于在实际应用中,变量间的关系十分复杂,故不会完全与模拟数据中的表现完全一致,经本例的分析结果,可推知基于Cox模型的弹性SCAD在实际处理生存数据时表现优于文中其他变量选择方法。

4 结论与展望

本文主要研究了基于Cox模型的弹性SCAD变量选择方法的理论性质,通过数值模拟比较得出了如下结论:在n=100,p=50情况下,基于Cox模型的Elastic net和Adaptive elastic net方法在变量选择的一致性上的表现不如弹性SCAD方法; 对于有组效应的变量选择方法,在n=100,p=50情况,变量间存在强相关关系与小样本低维、变量间存在弱相关关系两种情况下,基于Cox模型的弹性SCAD模型误差最小,系数估计方面也表现最佳; 在n=500,p=10情况,变量间存在非强(中等强度及较弱强度)相关关系时,基于Cox模型的弹性SCAD在系数估计方面表现最佳; 在n=100,p=50情况、变量间存在弱相关关系时,基于Cox模型的弹性SCAD的模型误差最小。

n=100,p=200时,在变量间3种不同程度的相关情况下,基于Cox模型的弹性SCAD相比于Elastic net和Adaptive elastic net方法,均具有较少的噪声系数、较低的模型误差。进一步通过实例分析发现,基于Cox模型的弹性SCAD的变量选择结果优于文中讨论的其余变量选择方法,变量选择结果较为合理,与实际更相符。

通过多种方法的实例比较分析,可以判断变量间是否存在共线性,有利于在决策时选择更适合的方法,作出更理性、正确的判断,进一步可知,通过比较这几种方法在不同类型参数下的表现,可判断共线性的强弱,在实际应用时,提供一个较为理性的方案。

本文只选取了特定删失比例、变量个数、数据个数进行了数值模拟,弹性SCAD与SCAD的模拟程序也不适于处理带有节点的生存数据,且由于设备的局限性,也未能研究弹性SCAD在更高维数据下的表现,结果难免会有一定的片面性。在进一步的研究中,可改进算法、程序、改变删失比例、变量个数及数据个数进行更全面、高效的数值模拟,发现其新的变量选择特性或局限性所在,从而更好地应用于理论研究和实践方面。

附录

性质1证明:用反证法。

对于固定的λ1, λ2>0,若令

$ \hat \beta _k^* = \left\{ {\begin{array}{*{20}{l}} {{{\hat \beta }_k},k \ne i{\rm{ 且 }}k \ne j}\\ {\frac{{{{\hat \beta }_i} + {{\hat \beta }_j}}}{2},k = i{\rm{ 或 }}k = j} \end{array}} \right.。$

xi=xj, 知$ \ln \left(\hat{\boldsymbol{\beta}}^{*}\right)=\ln (\hat{\boldsymbol{\beta}})$, 而$P_{\lambda_{1}, \lambda 2}(\boldsymbol{\beta}) $为一严格凸函数,故有$ P_{\lambda_{1}, \lambda_{2}}\left(\hat{\boldsymbol{\beta}}^{*}\right) <P_{\lambda_{1}, \lambda_{2}}(\hat{\boldsymbol{\beta}})$,这与公式(1)矛盾,故有$ \hat{\beta}_{i}=\hat{\beta}_{j}$

引理1[10]:若$ \beta_{i} \cdot \beta_{j}>0, \lambda_{2}>\frac{1}{2(\gamma-1)}$,则$\left|p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{i}\right)-p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{j}\right)\right| \geqslant \quad C\left|\beta_{i}-\beta_{j}\right|, i, j \quad \in \{1, 2, \cdots, n\}$

证明  不妨设0 < βiβj,则可分以下6种情况讨论:

$ {1.0 \le {\beta _i} \le {\beta _j} \le {\lambda _1}} $
$ {2.{\lambda _1} < {\beta _i} \le {\beta _j} \le \gamma {\lambda _1}} $
$ {3.\gamma {\lambda _1} < {\beta _i} \le {\beta _j}} $
$ {4.0 < {\beta _i} \le {\lambda _1} \le {\beta _j}} $
$ {5.{\lambda _1} < {\beta _i} \le \gamma {\lambda _1} \le {\beta _j}} $
$ {6.0 < {\beta _i} \le {\lambda _1},{\beta _j} \ge \gamma {\lambda _1}} $

当为情况1时,由公式(2)知

$ \begin{array}{*{20}{l}} {\quad |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| = }\\ {|{\lambda _1} {\rm{sgn}} ({\beta _i}) + 2{\lambda _2}{\beta _i} - {\lambda _1} {\rm{sgn}} ({\beta _j}) - 2{\lambda _2}{\beta _j}| = }\\ {|2{\lambda _2}{\beta _i} - 2{\lambda _2}{\beta _j}| = 2{\lambda _2}|{\beta _i} - {\beta _j}| \ge }\\ {C|{\beta _i} - {\beta _j}|}。\end{array} $

同理,可证情况2,3时亦有

$ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$

现考虑情况4,由公式(2),$ \lambda_{2}>\frac{1}{2(\gamma-1)}$时,$ p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{j}\right)$为关于的单调递增函数,从而

$ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| = {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) = }\\ {[{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\lambda _1})] + }\\ {[{p^\prime }_{{\lambda _1},{\lambda _2}}({\lambda _1}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i})] \ge }\\ {C({\beta _j} - {\lambda _1}) + C({\lambda _1} - {\beta _i}) = }\\ {C({\beta _i} - {\beta _j}) = C|{\beta _i} - {\beta _j}|}。\end{array} $

同理可证情况5和6亦有

$ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$

同样地,可证$\beta_{i} \leqslant \beta_{j} <0 $时,仍有

$ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$

性质2证明:记式子(1)的第τ和第I个估计值分别为βτ, βI,则

$ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} = {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{j\tau }}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} = }\\ {{\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + {M_\tau }} \end{array} $
$ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial {\rm{ln}}(\beta )}}{{\partial {\beta _\tau }}} = {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{jI}}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} = }\\ {{\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + {M_I}}。\end{array} $

xτ表示数据矩X的第τ列的非删失部分依次组成的新向量, xI表示数据矩阵X的第I列的非删失部分依次组成的新向量。

$ \begin{array}{*{20}{c}} {{\rm{ 故 }}\Delta M = {M_I} - {M_\tau } = }\\ {\sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {({x_{jI}} - {x_{j\tau }})} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }}} \end{array} $

易知$ 0 \leqslant|\Delta M| \leqslant m a$,从而根据

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} = - \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = \\ {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + {M_\tau } + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = 0; \end{array} $
$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _I}}} = - \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _I}}} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) = \\ {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + {M_I} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) = 0。\end{array} $

可知

$ {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = \Delta M + {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} - {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} $

再结合引理1得

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| \le \\ \Delta M + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }| \le ma + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }|。\end{array} $

$ \rho=x_{\tau}^{\mathrm{T}} \cdot x_{I}$,此时xτ表示X数据矩阵的第τ列, xI表示数据矩阵X的第I列,且已经过标准化处理, 故$ \left|\boldsymbol{x}_{I}-\boldsymbol{x}_{\tau}\right|^{2} <2(1-\rho), \quad\left|\boldsymbol{x}_{I}-\boldsymbol{x}_{\tau}\right| <\sqrt {2\left( {1 - \rho } \right)} $,

即有

$ \begin{array}{*{20}{c}} {C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| \le }\\ {ma + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }| < }\\ {ma + \sqrt {2(1 - \rho )} }。\end{array} $

从而

$ \begin{array}{*{20}{c}} {C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| < }\\ {ma + \sqrt {2(1 - \rho )} }。\end{array} $

性质3证明:此证明中重新定义公式(4)为

$ Q(\mathit{\boldsymbol{\beta }}) = - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + n{P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }}), $

$B=\left\{\boldsymbol{\beta}:\left\|\boldsymbol{\beta}-\boldsymbol{\beta}^{*}\right\| \leqslant A n^{-\frac{1}{2}}+a\right\}, \boldsymbol{A} $为一个常数,则B为一个紧致集。

Q(β)为B上的一个连续函数知,Q(β)在B上存在极小值,若在B的边界上的每一个β都有Q(β)* < Q(β)成立,则在B的内部存在β*,使得Q(β)*达到极小值,B内部这样的β*Q(β)*的局部极小点。

要证明性质3,只需证明其一个充分条件:

对给定任意小的ε>0、足够大的γi,存在一个常数A(满足B包含真实参数),使得

$ P\{ \mathop {{\rm{inf}}}\limits_{\left\| u \right\| = A} Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) > Q({\mathit{\boldsymbol{\beta }}^*})\} > 1 - \varepsilon , $

其中u是一个p维矢量,

$ {\rm{sgn}} ({u_j}) = {\rm{sgn}} (\beta _j^*),j = 1,2, \cdots ,p, $

$ \mathit{\boldsymbol{\hat \beta }}\left( n \right)$表示B内部Q(β)的局部极小点,则有

$ \left\| {\mathit{\boldsymbol{\beta }} - {\mathit{\boldsymbol{\beta }}^*}} \right\| \le A{n^{ - \frac{1}{2}}} + a。$

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} D(\mathit{\boldsymbol{u}}) = Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) - Q({\mathit{\boldsymbol{\beta }}^*}) = \\ {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) + n{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) - \\ n{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) = [{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})] - \\ n[{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) - {P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})]。\end{array} $

用ln′(β*)代表ln(β*)的梯度向量,并设lβ* < ∞, ln(β*)在β*处的Fisher信息阵为:

$I\left(\boldsymbol{\beta}^{*}\right)=-\frac{1}{n} \ln ^{\prime}\left(\boldsymbol{\beta}^{*}\right)+o_{p}(1) $,则将$ \ln \left(\boldsymbol{\beta}^{*}+\right.$ $\left.\boldsymbol{u} b_{n}\right) $β*处泰勒展开得

$ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + u{b_n}) = {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - }\\ {\left[ {{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) + {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}{\mathit{\boldsymbol{u}}^{\rm{T}}}{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 + {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)} \right] = }\\ { - {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2),} \end{array} $

同理,可得

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} n\{ {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) + {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})\} = \\ - nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} - \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 - \\ {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)n\{ {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*}} \right\|^2} - {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}}} \right\|^2}\} = \\ - \quad 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j}\quad - \quad {\lambda _2}(n)nb_n^2\sum\limits_{j = 1}^p {\beta _j^*} u_j^2\\ {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)。\end{array} $

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} n[{P_{{\lambda _1},{\lambda _2}}}({\mathit{\boldsymbol{\beta }}^*}) + {P_{{\lambda _1},{\lambda _2}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}})] = \\ n[{f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) - {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})] + \\ n[{\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*}} \right\|^2} - {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}}} \right\|^2}] = \\ - nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} (\beta _j^*){u_j} - \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} (\beta _j^*)u_j^2 - \\ 2n{b_n}{\lambda _2}(n)\sum\limits_{i = 1}^p {\beta _j^*} {u_j} - {\lambda _2}(n)nb_n^2\sum\limits_{i = 1}^p {\beta _j^*} u_j^2 - 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2), \end{array} $

从而可得

$ \begin{array}{*{20}{l}} {\qquad {D_n}(\mathit{\boldsymbol{u}}) = - {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}u{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - }\\ {\frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} + }\\ {\frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 + 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j} + }\\ {{\lambda _2}(n)nb_n^2\sum\limits_{j = 1}^p {\beta _j^*} u_j^2 + 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)}。\end{array} $

又有$n \rightarrow+\infty, \lambda_{1}(n) \rightarrow 0, \sqrt{n} \lambda_{2}(n) \rightarrow 0 $

故结合正文中公式(2)、(3)知

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} + \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 = \\ nb_n^2\sum\limits_{j = 1}^p 0 \cdot {u_j} + \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p 2 {\lambda _2}(n)u_j^2 = \\ nb_n^2\sum\limits_j {{\lambda _2}} (n)u_j^2, \end{array} $

化简得

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {D_n}(\mathit{\boldsymbol{u}}) = - {1^\prime }_{\rm{n}}{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \\ \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + nb_n^2\sum\limits_{j = 1}^p {{\lambda _2}} (n)u_j^2 + 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j} + \\ {\lambda _2}(n)nb_n^2\sum\limits_{i = 1}^p {\beta _j^*} u_j^2 + 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)。\end{array} $

$b_{n}=n^{-\frac{1}{2}}+a=n^{-\frac{1}{2}}+2 b \lambda_{2}(n) $,

$ b = {\rm{max}}\{ |\beta _j^*|:\beta _j^* \ne 0\} , $

$\lambda_{2}(n)=o\left(n^{-\frac{1}{2}}\right), b_{n}=n^{-\frac{1}{2}}[1+2 b \cdot o(1)], n b_{n}^{2}=1+4 \cdot o(1)+4 b^{2} \cdot o(1) $

进一步化简可得

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {D_n}(u) = - {\rm{l}}{{\rm{n}}^\prime }{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \\ \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + o(1) = - {\rm{l}}{{\rm{n}}^\prime }{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \\ \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2(I({\mathit{\boldsymbol{\beta }}^*}) - {O_p}(1)) + o(1) - \frac{1}{2}{O_p}(1)。\end{array} $

由Fisher信息矩阵$\boldsymbol{I}\left(\boldsymbol{\beta}^{*}\right) \geqslant 0 $可知$ D_{n}(\boldsymbol{u}) \geqslant 0$。即对任意给定的ε>0、足够大的n,存在一个常数A(满足B包含真实参数),使得

$ P\{ \mathop {{\rm{inf}}}\limits_{\left\| \mathit{\boldsymbol{u}} \right\| = A} Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) > Q({\mathit{\boldsymbol{\beta }}^*})\} > 1 - \varepsilon , $

从而性质3得证。

性质4证明(1)证明稀疏性,只需证明其等价条件即可。即证明:当n→∞时,存在$\varepsilon \geqslant C n^{-\frac{1}{2}}>0 $,使得

$P\left\{\operatorname{sgn}\left(\frac{\partial Q(\boldsymbol{\beta})}{\partial \beta_{j}}\right)=\operatorname{sgn}\left(\beta_{j}\right):\left|\beta_{j}\right| <\varepsilon, j=d+1\right. $ $ d+2, \cdots, p\}=1$成立。其中$\left\|\boldsymbol{\beta}-\boldsymbol{\beta}^{*}\right\| \leqslant C n^{-\frac{1}{2}} $满足,C为任意的正常数。

由正文中公式(1)知,当n→∞时,可取ε < λ1(n),又$ \sqrt{n} \lambda_{2}(n) \rightarrow 0$,故

$ \begin{array}{l} n{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _s}) = n{\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2n{\lambda _2}(n){\beta _s} = \\ \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} , \end{array} $

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}}} = {\left. {\frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}}}} \right|_{\beta = {\beta ^*}}} + {\sum\limits_{t = 1}^p {\left. {\frac{{^2{{\rm{l}}_{\rm{n}}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}{\beta _t}}}} \right|} _{\mathit{\boldsymbol{\beta }} = {\mathit{\boldsymbol{\beta }}^*}}} \cdot \\ ({{\hat \beta }_t} - \beta _t^*) + {O_p}(\sum\limits_{t = 1}^p ( {{\hat \beta }_t} - \beta _t^*)), \end{array} $

结合$ \left\|\boldsymbol{\beta}-\boldsymbol{\beta}^{*}\right\| \leqslant C n^{-\frac{1}{2}}$,知$ \frac{\ln (\boldsymbol{\beta})}{\beta_{s}}=\left.\frac{\ln (\boldsymbol{\beta})}{\beta_{s}}\right|_{\beta=\beta^{*}}$

$ \frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _\tau }}} = {\mathit{\boldsymbol{x}}_\tau } \cdot {1_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{j\tau }}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} < \infty $

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}} = \\ - {\left. {\frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = {\mathit{\boldsymbol{\beta }}^*}}} + \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} = \\ \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} - {\rm{constan}} t。\end{array} $

$ \sqrt{n} \lambda_{1}(n) \rightarrow \infty$

$ P\left\{\operatorname{sgn}\left(\frac{\partial Q(\boldsymbol{\beta})}{\partial \beta_{j}}\right)=\operatorname{sgn}\left(\beta_{j}\right):\left|\beta_{j}\right| <\varepsilon, j=d+1\right.$ $d+2, \cdots, p\}=1 $成立,从而稀疏性得证。

(2) 由性质3知若$n \rightarrow+\infty, \lambda_{1}(n) \rightarrow 0, \sqrt{n} \lambda_{2}(n) \rightarrow 0 $,则局部最优解$\hat{\boldsymbol{\beta}}(n) $满足$ \left\|\hat{\boldsymbol{\beta}}(n)-\boldsymbol{\beta}^{*}\right\|=o_{p}\left(b_{n}\right)$,从而有

$ {\left. {\frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = \mathit{\boldsymbol{\hat \beta }}(n)}} = 0,s = 1,2, \cdots ,d。$

$ \frac{\partial \ln (\boldsymbol{\beta})}{\partial \beta_{s}}=0, s=1, \cdots, p $的解为$ \hat{\boldsymbol{\beta}}_{E P L}$

由参考文献[11]中的定理9,可知

$ \sqrt n ({\mathit{\boldsymbol{\hat \beta }}_{EPL}} - {\mathit{\boldsymbol{\beta }}^*})\mathop \to \limits^D {N_p}(\mathit{\boldsymbol{0}},\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}), $

其中Σ表示 $ \hat{\boldsymbol{\beta}}_{E P L}$ 估计方程的方差。

$n \rightarrow+\infty, \gamma \lambda_{1}(n) \rightarrow 0, \left|\beta_{s}\right|>\gamma \lambda_{1}(n) $,

$ n p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{s}\right)=2 n \lambda_{2}(n) \beta_{s}$

从而$\frac{\partial Q(\boldsymbol{\beta})}{\partial \beta_{s}}=-\left.\frac{\partial \ln (\boldsymbol{\beta})}{\partial \beta_{s}}\right|_{\boldsymbol{\beta}=\hat{\boldsymbol{\beta}}(n)}+n p_{\lambda_{1}, \lambda_{2}}^{\prime}\left(\beta_{s}\right)=0 $,即为

$ \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}} = - {\left. {\frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = \mathit{\boldsymbol{\hat \beta }}(n)}} + 2o(1){\beta _s} = 0。$

$ 2 o(1)\|\hat{\boldsymbol{\beta}}(n)\|^{2} \rightarrow o_{p}(1)$

故有$P\left\{\sqrt{n} \hat{\boldsymbol{\beta}}(n)-\hat{\boldsymbol{\beta}}_{E P L}=\bf{0}\right\}=1 $

从而有$ \sqrt{n}\left(\hat{\boldsymbol{\beta}}(n)-\boldsymbol{\beta}^{*}\right) \stackrel{D}{\longrightarrow} N_{p}(\boldsymbol{0}, \mathit{\boldsymbol{ \boldsymbol{\varSigma} }})$, 渐近正态性得证。

性质5证明由文献[11]中的定理10,知

$ \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}({\mathit{\boldsymbol{\hat \beta }}_{EPL}})\mathop \to \limits^p \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}({\mathit{\boldsymbol{\beta }}^*}),n \to \infty 。$

由性质4的(2)中证明, 知

$ P\{ \sqrt n \left\| {\mathit{\boldsymbol{\hat \beta }}(n) - {{\mathit{\boldsymbol{\hat \beta }}}_{EPL}}} \right\| = 0\} = 1, $

从而$\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{1}\left(\hat{\boldsymbol{\beta}}_{E P L}\right) \stackrel{p}{\longrightarrow} \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_{1}\left(\boldsymbol{\beta}^{*}\right), n \rightarrow \infty $

参考文献
[1]
Fan J, Li R. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360. DOI:10.1198/016214501753382273 (0)
[2]
West M, Blanchettem C, Dressman H, et al. Predicting the clinical status of human breast cancer using gene expression profiles[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98: 11462-11467. DOI:10.1073/pnas.201162998 (0)
[3]
Hastie T, Tibshirani R, Eisen M B, et al. 'Gene shaving' as a method for identifying distinct sets of genes with similar expression patterns[J]. Genome Biology, 2000, 1(2): 1-21. (0)
[4]
Ramón Díaz-Uriarte, Casado D. Can we Find Molecular Signatures from Gene Expression Data?[C]. Spanish: Spanish Biomformatics Conference, 2004. (0)
[5]
Hastie T, Tibshirani R, Botstein D, et al. Supervised harvesting of expression trees[J]. Genome Biology, 2001, 2(1): 1-12. (0)
[6]
Dettling M, Peter Bühlmann. Finding predictive gene groups from microarray data[J]. Journal of Multivariate Analysis, 2004, 90(1): 106-131. DOI:10.1016/j.jmva.2004.02.012 (0)
[7]
Segal M R, Dahlquist K D, Conklin B R. Regression approaches for microarray data analysis[J]. Journal of Computational Biology, 2003, 10(6): 961-980. DOI:10.1089/106652703322756177 (0)
[8]
Zou H, Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society, 2005, 67(2): 301-320. DOI:10.1111/j.1467-9868.2005.00503.x (0)
[9]
Tibshirani R. The lasso method for variable selection in the cox model[J]. Statistics in Medicine, 1997, 16(4): 385-395. DOI:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3 (0)
[10]
Fan J, Li R. Variable selection for cox's proportional hazards model and frailty model[J]. The Annals of Statistics, 2002, 30(1): 74-99. DOI:10.1214/aos/1015362185 (0)
[11]
Li H, Luan Y. Kernel Cox regression models for linking gene expression profiles to censored survival data[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2003, 8(12): 65. (0)
[12]
Zhang H H, Lu W. Adaptive lasso for cox's proportional hazards model[J]. Biometrika, 2007, 94(3): 691-703. DOI:10.1093/biomet/asm037 (0)
[13]
Zou H. A note on path-based variable selection in the penalized proportional hazards model[J]. Biometrika, 2008, 95(1): 241-247. DOI:10.1093/biomet/asm083 (0)
[14]
闫丽娜.惩罚COX模型和弹性网技术在高维数据生存分析中的应用[D].太原: 山西医科大学, 2011.
Yan L N. The Application of Punishment COX Model and Elastic net Technology in Survival Analysis of High-dimensional Data[D]. Taiyuan: Shanxi Medical University, 2011. (0)
[15]
侯文, 侯向艳, 刘琦. Cox比例风险模型的桥估计[J]. 辽宁师范大学学报(自然科学版), 2012, 35(1): 9-12.
Hou W, Hou X, Liu Q. Bridge estimator for Cox's proportional hazard model[J]. Journal of Liaoning Normal University (Natural Science Edition), 2012, 35(1): 9-12. (0)
[16]
邓秋玲. SCAD和ADS方法在比例风险模型中的应用[D].南宁: 广西大学, 2015.
Deng Q. SCAD and ADS Methods for Proportional Hazards Model[D]. Nanning: Guangxi University, 2015. (0)
[17]
刘丹, 郑少智. Cox模型中的自适应Lasso变量选择[J]. 统计与决策, 2016(10): 7-10.
Liu D, Zheng S Z. Adaptive Lasso variable selection method with Cox model[J]. Statistics and Decision, 2016(10): 7-10. (0)
[18]
Kalbfleisch D, Prentice R L. The Statistical Analysis of Failure Time Data[M]. New York: Wiley, 1980. (0)
Elastic SCAD Variable Selection and Its Application in Cox Model
SUN Zhi-Hua1 , XIE Xiang-Dong2 , JIAO Dong-Fang1     
1. School of Mathematical Science, Ocean University of China, Qingdao 266100, China;
2. School of Mathematics and Statistics, Northeast Normal University, Changchun 130024, China
Abstract: In this paper, we studied the application of the elastic SCAD variable selection method based on the Cox proportional hazards model. Ourelastic SCAD method has the grouping effect, asymptotic consistency and the Oracle property. Wedemonstrate the performance of our method via numerical simulations.We show that the elastic SCAD method is better than other variable selections, likeLasso, Adaptive Lasso, SCAD, Elastic Net and Adaptive Elastic Net. Moreover, we apply our methodto the lung cancer data. It turns out that the elastic SCAD method performs better than other methods. Elastic SCAD is more reasonable and closer to the practical situation.
Key words: variable selection    elastic SCAD    Cox model    grouping effect    Oracle property