2. 东北师范大学数学与统计学院, 吉林 长春 130024
变量选择问题是统计领域中的研究方向之一。基于惩罚思想的变量选择方法(也称正则化回归方法),在选出变量的同时也对变量参数作出了估计,其计算量相对较小,相比其他变量选择方法呈现出诸多优越性。这使得,以Lasso为代表的基于惩罚的变量选择方法得到广泛研究,出现了一系列基于惩罚的变量选择方法:Bridge、Lasso、SCAD、Elastic Net、Adaptive Lasso、Dantzig Selector、MCP等。虽然Lasso具有较好的预测结果,但一般情况下Lasso结果是有偏的,在严格的条件假设下才具有相合性,并且Lasso不具有oracle性质[1]。而SCAD、Adaptive Lasso、Dantzig Selector以及MCP具有oracle性质。West等[2]提出当“large p, small n”时,要特别重视成组变量(Grouped variables)的问题。针对此类问题,Hastie等[3]、Díaz-Uriarte[4]提出了主成分分析法,Hastie等[5]提出了监督tree harvesting方法,Dettling和Bühlmann[6]将聚类和有监督学习结合在了一起,Segal等[7]论证了正则化回归方法处理成组变量的优势,Zou和Hastie[8]提出了变量选择方法的组效应(Grouping effect)。Lasso处理成组变量的效果非常差,而SCAD、Elastic Net、Adaptive Lasso、Dantizig Selector、MCP中,仅Elastic Net方法具有组效应。
由于生存数据的删失性,完全数据的变量选择方法不能直接应用于生存数据,因而一些学者研究了Cox比例风险模型(简称之为Cox模型)的变量选择问题:Tibshirani[9]、Fan和Li[10]分别将Lasso、SCAD应用于Cox模型,Li和Luan[11]提出了Cox核转换方法,Zhang和Lu[12], Zou[13]将Adaptive Lasso应用到Cox模型,闫丽娜[14]将Elastic Net与Cox模型结合,侯文[15]研究了Cox模型的桥估计(Bridge),邓秋玲[16]研究了SCAD和Adaptive Dantizig Selector在Cox模型中的应用,刘丹等[17]研究了Adaptive Elastic Net在Cox模型中的应用。
为了使高维生存数据的Cox模型的变量选择方法既有oracle性质,又具有组效应,本文提出了Cox模型的弹性SCAD方法,并证明了弹性SCAD方法的统计性质,通过数值模拟,比较了在Cox模型下,弹性SCAD与Lasso、Adaptive Lasso、SCAD、Elastic Net、Adaptive Elastic Net等方法的变量选择结果,得到了弹性SCAD在某些情况下的优越性,最后再结合实例,探讨了弹性SCAD及其他变量选择方法应用于Cox模型处理生存数据的表现优劣。
1 基于Cox模型的弹性SCAD方法及性质首先,我们给出Cox模型的弹性SCAD方法的估计:
| $ \mathit{\boldsymbol{\hat \beta }} = \mathop {{\rm{argmin}}}\limits_\beta \{ - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + \sum\nolimits_{j = 1}^p {{P_{{\lambda _1},{\lambda _2}}}} ({\beta _j})\} 。$ | (1) |
式中:ln(β)表示Cox模型的对数偏似然函数[5],
| $ \begin{array}{*{20}{l}} {{P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }}) = {f_{{\lambda _1}}}(\mathit{\boldsymbol{\beta }}) + {\lambda _2}{{\left\| \mathit{\boldsymbol{\beta }} \right\|}^2} = \sum\limits_{i = 1}^p {{f_{{\lambda _1}}}} (\mathit{\boldsymbol{\beta }}) + }\\ {{\lambda _2}\sum\limits_{i = 1}^p {\beta _j^2} }。\end{array} $ |
R(ti)表示ti时刻的危险集,δi是表示是否删失的示性函数。
故
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} p_{{\lambda _1},{\lambda _2}}^\prime ({\beta _j}) = \\ \left\{ \begin{array}{l} {\lambda _1} {\rm{sgn}} ({\beta _j}) + 2{\lambda _2}{\beta _j},|{\beta _j}| < {\lambda _1}\\ - \frac{{{\beta _j} - \gamma {\lambda _1} {\rm{sgn}} ({\beta _j})}}{{\gamma - 1}} + 2{\lambda _2}{\beta _j},{\lambda _1} \le |{\beta _j}| < \gamma {\lambda _1},\\ 2{\lambda _2}{\beta _j},|{\beta _j}| \ge \gamma {\lambda _1} \end{array} \right. \end{array} $ | (2) |
| $ {p^{\prime \prime }}_{{\lambda _1},{\lambda _2}}({\beta _j}) = \left\{ {\begin{array}{*{20}{l}} {2{\lambda _2},|{\beta _j}| < {\lambda _1}}\\ { - \frac{1}{{\gamma - 1}} + 2{\lambda _2},{\lambda _1} \le |{\beta _j}| < \gamma {\lambda _1}}。\\ {2{\lambda _2},|{\beta _j}| \ge \gamma {\lambda _1}} \end{array}} \right. $ | (3) |
根据弹性SCAD罚函数的二阶导函数易知,当调整参数满足条件:
| $ 记Q(\mathit{\boldsymbol{\beta }}) = - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + {P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }})。$ | (4) |
我们可以得出基于Cox比例风险模型的弹性SCAD方法有以下性质(证明见附录):
性质1 若
性质2(变量选择的组效应) 记β*为真实参数向量,若
| $ D(i,j) < ma + \sqrt {2(1 - \rho )} ; $ |
式中
| $ \begin{array}{*{20}{l}} {a = {\rm{max}}\{ |{\mathit{\boldsymbol{x}}_{ij}} - {\mathit{\boldsymbol{x}}_{i\tau }}|\} ,i \in \{ 1,2, \cdots ,n\} ,j,\tau \in \{ 1,2,}\\ { \cdots ,p\} }。\end{array} $ |
性质3(估计一致性) 若
性质4(Oracle性质) 若
(1) 稀疏性:
(2) 渐近正态性:
式中
性质5 (方差估计的渐近性)
| $ {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1}(\mathit{\boldsymbol{\hat \beta }}(n))\mathop \to \limits^p {\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}_1}({\mathit{\boldsymbol{\beta }}^*}),n \to \infty 。$ |
式中:
性质1~5的证明见附录。
2 数值模拟弹性SCAD方法可以看作是SCAD方法和岭回归的结合,具有Oracle性质,其克服了Elastic Net有偏估计的缺点,属于渐近无偏估计。与SCAD相比,具有组效应,且与同样具有组效应的Elastic Net (ENet)、Adaptive elastic net(AENet)相比,其在处理小样本高维数据、变量间存在高度共线性问题与小样本低维、变量间存在弱相关关系两种情况下表现更优。
本部分数据模拟选用十折交叉验证,研究的目的是通过运用基于Cox模型的Lasso、Adaptive lasso(Alasso)、ENet、AENet、SCAD、弹性SCAD(Escad) 6种变量选择方法,对模拟生成的高维、并具有不同共线性强弱的生存数据进行变量选择,比较其变量筛选效果以及模型误差等指标,进而评价各种方法的优劣。
数值模拟的参数设置情况如下:设样本量为n, 协变量个数为p,生成n×p的数据矩阵X,除前2列外,其余各列服从标准的多元正态分布,第一列数据服从一元标准正态分布,第二列数据与第一列数据之间的相关系数分别设为r(v1, v2)=0.8、0.5和0.2,分别代表变量和间存在强共线性、中等共线性和弱共线性的情况。参数设置为:
| $ \mathit{\boldsymbol{v}} = ({v_1},{v_2},{v_3}, \cdots ,{v_p}) = (0.8,0.7,1, - 0.6,0,0, \cdots ,0)。$ |
当变量v1与v2间存在共线性且为重要变量时,若所用变量选择方法同时将v1、v2选进模型,则说明该方法具有变量选择的组效应,否则,说明其没有变量选择的组效应。生存时间删失率设为0.3。
利用R软件进行蒙特卡洛模拟抽样100次(主要用到的包为ncvreg、Coxnet、survial、Matrix),结果见表 1。其中真阳性表示选对非零系数的个数,假阳性表示错选非零系数的个数; noise表示除变量前4个系数外,其他非零系数绝对值之和; main表示变量中前4个变量绝对值之和; bias=|main-m|,表示前4个估计系数与真实系数之间偏差的绝对值,用来衡量系数估计的优劣,其中
|
|
表 1 部分数值模拟结果 Table 1 Partial numerical simulation results |
从图 1可以看出,SCAD相比于Lasso、Alasso,其模型误差较小,模型稳定性强; 弹性SCAD相比于Enet、AENet,由于其具有Oracle性质,故模型误差较小,模型稳定性强,虽然AENet也具有Oracle性质,但模型表现不如Escad稳定。
|
图 1 6种方法在模型误差方面的表现(相关系数为0.8) Fig. 1 The performance of six methods in model error(correlation coefficient 0.8) |
图 2给出了当n=100, p=10且相关系数为0.8时,弹性SCAD与SCAD的求解路径的比较,其中图 2(a)为弹性SCAD,图 2(b)为SCAD。
|
(n=100, p=10, r(v1, v2)=0.8。曲线1~4分别为v1~v4的估计值。n=100, p=10, r(v1, v2)=0.8. line 1~4 are the estimators of variables v1~v4. ) 图 2 弹性SCAD(a)与SCAD(b)的求解路径 Fig. 2 Solution path comparison of elastic SCAD(a) and SCAD(b) |
结合图 1和2可以看出,弹性SCAD在保留了SCAD变量选择优点的同时,克服了SCAD方法在进行变量选择时不具有组效应的缺点,在变量间存在高度相关性时,能够把相关的变量同时选进模型,具有变量选择的组效应。
从数据模拟结果可以看出:不具有变量选择组效应的方法是基于Cox模型的Lasso、Alasso、SCAD; 具有变量选择组效应的方法是ENet、AENet、弹性SCAD。其中三者在对于有组效应的变量选择方法,在n=100, p=50, 变量间存在强相关关系与n=100, p=10, 变量间存在弱相关关系两种情况下,弹性SCAD模型误差最小,系数估计方面也表现最佳; 在n=500, p=10情况、变量间存在非强(中等强度及较弱强度)相关关系时,弹性SCAD在系数估计方面表现最佳; 在n=100, p=50情况,变量间存在弱相关关系时,弹性SCAD的模型误差最小。基于Cox模型的Lasso和Alasso均倾向于多选变量,而SCAD与二者相比,虽然也存在假阳性,但除小样本低维、变量间存在弱相关性的情况外,其假阳性的个数均小于二者,故变量选择的一致性方面,SCAD优势明显; 基于Cox模型的ENet、AENet和弹性SCAD均倾向于多选变量,而弹性SCAD与二者相比,虽然也存在假阳性,但在n=100, p=50情况下假阳性的个数均小于二者,故变量选择的一致性方面,此情况下基于Cox模型的弹性SCAD方法最优。当n=100, p=200时,不具有变量选择组效应的方法是基于Cox模型的Lasso、Alasso、SCAD; 具有变量选择组效应的方法仍是基于Cox模型的ENet、AENet、弹性SCAD; 在变量间3种不同程度的相关关系情况下,基于Cox模型的弹性SCAD相比于ENet和AENet方法,均具有较少的噪声系数、较低的模型误差。
3 实例分析本实例数据来源于Kalbfleish和Prentice的一组肺癌治疗方案的临床试验数据[18],这是一个标准的生存分析数据集。我们对这组数据利用前文提到的6种方法进行变量选择,结果见表 2。
|
|
表 2 对肺癌数据进行变量选择的结果 Table 2 The result of variable selection forlung cancer data |
由于Diagnosis time, age和prior的值均为0,可以判定其对研究对象的生存时间没有影响; 结合Escad、Enet、AENet的选择结果,可知small为噪声系数,对结果没有明显影响; 若假设变量间存在相关性,结合数值模拟结果可知,在小样本低维数情况下,AENet表现最优,故理论上其选择的非零个数要比SCAD、Lasso、Alasso要多,而结合表 2中数据可知,这4种方法选出的非零个数并无明显差异,甚至不具有组效应的Lasso要比AENet选的还多,这说明这些变量间是不具有相关关系。
卡式评分(Karnofsky score)表现得分越高,健康状况越好,越能忍受治疗给身体带来的副作用,因而也就有可能接受彻底的治疗,6种方法均将其选出,比较符合实际; 肺小细胞癌是肺癌中最凶恶的,坏死典型且呈广泛性,扩散转移快; 而与之对应的,鳞状细胞癌(鳞癌)、腺癌、大细胞癌均为非小细胞型肺癌,与小细胞癌相比,它们扩散转移相对较晚。故根据实际,可把鳞状细胞癌、胰癌、大细胞癌看作一组变量,表 2中只有Escad、ENet、Lasso 3种方法同时选进了这3种变量,比较符合实际。但Lasso不具有组效应,故其虽然选进了这3种变量,应该是作为噪声变量选入的,系数估计会很差,故与实际相差比较大; 而AENet作为在ENet的基础上的一种改进,却没有将这3种因素同时选入模型,可见ENet选入这3种变量是因为此方法会多选变量。综上,可推知影响研究对象生存时间的主要因素有:Treatment、Karnofsky、squamous、adeno和large影响效用系数分别为:0.099、-0.028、-0.683、0.296和-0.334。
即癌症类型是否为非小细胞癌,是决定生存时间的因素。更进一步,其中是否为鳞状细胞癌的指标为主要决定因素。Karnofsky表现得分虽然对生存时间有影响,但是相对来说其影响是次要的,不起决定性作用。再对比文献[12]中研究结果,可知本文上述研究结果与之相符,但治疗指标trt是否为有效影响因素,对比之下难以确定,有待进一步研究。由于在实际应用中,变量间的关系十分复杂,故不会完全与模拟数据中的表现完全一致,经本例的分析结果,可推知基于Cox模型的弹性SCAD在实际处理生存数据时表现优于文中其他变量选择方法。
4 结论与展望本文主要研究了基于Cox模型的弹性SCAD变量选择方法的理论性质,通过数值模拟比较得出了如下结论:在n=100,p=50情况下,基于Cox模型的Elastic net和Adaptive elastic net方法在变量选择的一致性上的表现不如弹性SCAD方法; 对于有组效应的变量选择方法,在n=100,p=50情况,变量间存在强相关关系与小样本低维、变量间存在弱相关关系两种情况下,基于Cox模型的弹性SCAD模型误差最小,系数估计方面也表现最佳; 在n=500,p=10情况,变量间存在非强(中等强度及较弱强度)相关关系时,基于Cox模型的弹性SCAD在系数估计方面表现最佳; 在n=100,p=50情况、变量间存在弱相关关系时,基于Cox模型的弹性SCAD的模型误差最小。
当n=100,p=200时,在变量间3种不同程度的相关情况下,基于Cox模型的弹性SCAD相比于Elastic net和Adaptive elastic net方法,均具有较少的噪声系数、较低的模型误差。进一步通过实例分析发现,基于Cox模型的弹性SCAD的变量选择结果优于文中讨论的其余变量选择方法,变量选择结果较为合理,与实际更相符。
通过多种方法的实例比较分析,可以判断变量间是否存在共线性,有利于在决策时选择更适合的方法,作出更理性、正确的判断,进一步可知,通过比较这几种方法在不同类型参数下的表现,可判断共线性的强弱,在实际应用时,提供一个较为理性的方案。
本文只选取了特定删失比例、变量个数、数据个数进行了数值模拟,弹性SCAD与SCAD的模拟程序也不适于处理带有节点的生存数据,且由于设备的局限性,也未能研究弹性SCAD在更高维数据下的表现,结果难免会有一定的片面性。在进一步的研究中,可改进算法、程序、改变删失比例、变量个数及数据个数进行更全面、高效的数值模拟,发现其新的变量选择特性或局限性所在,从而更好地应用于理论研究和实践方面。
附录性质1证明:用反证法。
对于固定的λ1, λ2>0,若令
| $ \hat \beta _k^* = \left\{ {\begin{array}{*{20}{l}} {{{\hat \beta }_k},k \ne i{\rm{ 且 }}k \ne j}\\ {\frac{{{{\hat \beta }_i} + {{\hat \beta }_j}}}{2},k = i{\rm{ 或 }}k = j} \end{array}} \right.。$ |
由xi=xj, 知
引理1[10]:若
证明 不妨设0 < βi≤βj,则可分以下6种情况讨论:
| $ {1.0 \le {\beta _i} \le {\beta _j} \le {\lambda _1}} $ |
| $ {2.{\lambda _1} < {\beta _i} \le {\beta _j} \le \gamma {\lambda _1}} $ |
| $ {3.\gamma {\lambda _1} < {\beta _i} \le {\beta _j}} $ |
| $ {4.0 < {\beta _i} \le {\lambda _1} \le {\beta _j}} $ |
| $ {5.{\lambda _1} < {\beta _i} \le \gamma {\lambda _1} \le {\beta _j}} $ |
| $ {6.0 < {\beta _i} \le {\lambda _1},{\beta _j} \ge \gamma {\lambda _1}} $ |
当为情况1时,由公式(2)知
| $ \begin{array}{*{20}{l}} {\quad |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| = }\\ {|{\lambda _1} {\rm{sgn}} ({\beta _i}) + 2{\lambda _2}{\beta _i} - {\lambda _1} {\rm{sgn}} ({\beta _j}) - 2{\lambda _2}{\beta _j}| = }\\ {|2{\lambda _2}{\beta _i} - 2{\lambda _2}{\beta _j}| = 2{\lambda _2}|{\beta _i} - {\beta _j}| \ge }\\ {C|{\beta _i} - {\beta _j}|}。\end{array} $ |
同理,可证情况2,3时亦有
| $ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$ |
现考虑情况4,由公式(2),
| $ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| = {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) = }\\ {[{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\lambda _1})] + }\\ {[{p^\prime }_{{\lambda _1},{\lambda _2}}({\lambda _1}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i})] \ge }\\ {C({\beta _j} - {\lambda _1}) + C({\lambda _1} - {\beta _i}) = }\\ {C({\beta _i} - {\beta _j}) = C|{\beta _i} - {\beta _j}|}。\end{array} $ |
同理可证情况5和6亦有
| $ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$ |
同样地,可证
| $ |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _i}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _j})| \ge C|{\beta _i} - {\beta _j}|成立。$ |
性质2证明:记式子(1)的第τ和第I个估计值分别为βτ, βI,则
| $ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} = {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{j\tau }}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} = }\\ {{\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + {M_\tau }} \end{array} $ |
| $ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial {\rm{ln}}(\beta )}}{{\partial {\beta _\tau }}} = {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{jI}}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} = }\\ {{\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + {M_I}}。\end{array} $ |
xτ表示数据矩X的第τ列的非删失部分依次组成的新向量, xI表示数据矩阵X的第I列的非删失部分依次组成的新向量。
| $ \begin{array}{*{20}{c}} {{\rm{ 故 }}\Delta M = {M_I} - {M_\tau } = }\\ {\sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {({x_{jI}} - {x_{j\tau }})} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }}} \end{array} $ |
易知
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} = - \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _\tau }}} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = \\ {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} + {M_\tau } + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = 0; \end{array} $ |
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _I}}} = - \frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _I}}} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) = \\ {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} + {M_I} + {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) = 0。\end{array} $ |
可知
| $ {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau }) = \Delta M + {\mathit{\boldsymbol{x}}_I} \cdot {{\bf{1}}_m} - {\mathit{\boldsymbol{x}}_\tau } \cdot {{\bf{1}}_m} $ |
再结合引理1得
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| \le \\ \Delta M + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }| \le ma + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }|。\end{array} $ |
又
即有
| $ \begin{array}{*{20}{c}} {C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| \le }\\ {ma + |{\mathit{\boldsymbol{x}}_I} - {\mathit{\boldsymbol{x}}_\tau }| < }\\ {ma + \sqrt {2(1 - \rho )} }。\end{array} $ |
从而
| $ \begin{array}{*{20}{c}} {C|{\beta _I} - {\beta _\tau }| \le |{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _I}) - {p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _\tau })| < }\\ {ma + \sqrt {2(1 - \rho )} }。\end{array} $ |
性质3证明:此证明中重新定义公式(4)为
| $ Q(\mathit{\boldsymbol{\beta }}) = - {\rm{ln}}(\mathit{\boldsymbol{\beta }}) + n{P_{{\lambda _1},{\lambda _2}}}(\mathit{\boldsymbol{\beta }}), $ |
令
由Q(β)为B上的一个连续函数知,Q(β)在B上存在极小值,若在B的边界上的每一个β都有Q(β)* < Q(β)成立,则在B的内部存在β*,使得Q(β)*达到极小值,B内部这样的β*为Q(β)*的局部极小点。
要证明性质3,只需证明其一个充分条件:
对给定任意小的ε>0、足够大的γi,存在一个常数A(满足B包含真实参数),使得
| $ P\{ \mathop {{\rm{inf}}}\limits_{\left\| u \right\| = A} Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) > Q({\mathit{\boldsymbol{\beta }}^*})\} > 1 - \varepsilon , $ |
其中u是一个p维矢量,
| $ {\rm{sgn}} ({u_j}) = {\rm{sgn}} (\beta _j^*),j = 1,2, \cdots ,p, $ |
用
| $ \left\| {\mathit{\boldsymbol{\beta }} - {\mathit{\boldsymbol{\beta }}^*}} \right\| \le A{n^{ - \frac{1}{2}}} + a。$ |
令
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} D(\mathit{\boldsymbol{u}}) = Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) - Q({\mathit{\boldsymbol{\beta }}^*}) = \\ {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) + n{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) - \\ n{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) = [{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})] - \\ n[{P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) - {P_{{\lambda _1},{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})]。\end{array} $ |
用ln′(β*)代表ln(β*)的梯度向量,并设l′β* < ∞, ln(β*)在β*处的Fisher信息阵为:
| $ \begin{array}{*{20}{l}} {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*} + u{b_n}) = {\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) - }\\ {\left[ {{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*}) + {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}{\mathit{\boldsymbol{u}}^{\rm{T}}}{\rm{ln}}({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 + {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)} \right] = }\\ { - {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2),} \end{array} $ |
同理,可得
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} n\{ {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) + {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})\} = \\ - nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} - \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 - \\ {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)n\{ {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*}} \right\|^2} - {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}}} \right\|^2}\} = \\ - \quad 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j}\quad - \quad {\lambda _2}(n)nb_n^2\sum\limits_{j = 1}^p {\beta _j^*} u_j^2\\ {O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)。\end{array} $ |
故
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} n[{P_{{\lambda _1},{\lambda _2}}}({\mathit{\boldsymbol{\beta }}^*}) + {P_{{\lambda _1},{\lambda _2}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}})] = \\ n[{f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*}) - {f_{{\lambda _1}}}({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n})] + \\ n[{\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*}} \right\|^2} - {\lambda _2}{\left\| {{\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{n^{ - \frac{1}{2}}}} \right\|^2}] = \\ - nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} (\beta _j^*){u_j} - \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} (\beta _j^*)u_j^2 - \\ 2n{b_n}{\lambda _2}(n)\sum\limits_{i = 1}^p {\beta _j^*} {u_j} - {\lambda _2}(n)nb_n^2\sum\limits_{i = 1}^p {\beta _j^*} u_j^2 - 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2), \end{array} $ |
从而可得
| $ \begin{array}{*{20}{l}} {\qquad {D_n}(\mathit{\boldsymbol{u}}) = - {\rm{l}}{{\rm{n}}^\prime }{{({\mathit{\boldsymbol{\beta }}^*})}^{\rm{T}}}u{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - }\\ {\frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} + }\\ {\frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 + 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j} + }\\ {{\lambda _2}(n)nb_n^2\sum\limits_{j = 1}^p {\beta _j^*} u_j^2 + 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)}。\end{array} $ |
又有
故结合正文中公式(2)、(3)知
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*}){u_j} + \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p {{f^\prime }_{{\lambda _1}}} ({\mathit{\boldsymbol{\beta }}^*})u_j^2 = \\ nb_n^2\sum\limits_{j = 1}^p 0 \cdot {u_j} + \frac{1}{2}nb_n^2\sum\limits_{j = 1}^p 2 {\lambda _2}(n)u_j^2 = \\ nb_n^2\sum\limits_j {{\lambda _2}} (n)u_j^2, \end{array} $ |
化简得
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {D_n}(\mathit{\boldsymbol{u}}) = - {1^\prime }_{\rm{n}}{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \\ \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + nb_n^2\sum\limits_{j = 1}^p {{\lambda _2}} (n)u_j^2 + 2n{b_n}{\lambda _2}(n)\sum\limits_{j = 1}^p {\beta _j^*} {u_j} + \\ {\lambda _2}(n)nb_n^2\sum\limits_{i = 1}^p {\beta _j^*} u_j^2 + 2{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2)。\end{array} $ |
由
| $ b = {\rm{max}}\{ |\beta _j^*|:\beta _j^* \ne 0\} , $ |
知
进一步化简可得
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {D_n}(u) = - {\rm{l}}{{\rm{n}}^\prime }{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}I({\mathit{\boldsymbol{\beta }}^*})\mathit{\boldsymbol{u}}b_n^2 - \\ \frac{{n + 1}}{2}{O_p}({\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2) + o(1) = - {\rm{l}}{{\rm{n}}^\prime }{({\mathit{\boldsymbol{\beta }}^*})^{\rm{T}}}\mathit{\boldsymbol{u}}{b_n} + \\ \frac{1}{2}n{\mathit{\boldsymbol{u}}^{\rm{T}}}\mathit{\boldsymbol{u}}b_n^2(I({\mathit{\boldsymbol{\beta }}^*}) - {O_p}(1)) + o(1) - \frac{1}{2}{O_p}(1)。\end{array} $ |
由Fisher信息矩阵
| $ P\{ \mathop {{\rm{inf}}}\limits_{\left\| \mathit{\boldsymbol{u}} \right\| = A} Q({\mathit{\boldsymbol{\beta }}^*} + \mathit{\boldsymbol{u}}{b_n}) > Q({\mathit{\boldsymbol{\beta }}^*})\} > 1 - \varepsilon , $ |
从而性质3得证。
性质4证明(1)证明稀疏性,只需证明其等价条件即可。即证明:当n→∞时,存在
由正文中公式(1)知,当n→∞时,可取ε < λ1(n),又
| $ \begin{array}{l} n{p^\prime }_{{\lambda _1},{\lambda _2}}({\beta _s}) = n{\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2n{\lambda _2}(n){\beta _s} = \\ \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} , \end{array} $ |
又
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}}} = {\left. {\frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}}}} \right|_{\beta = {\beta ^*}}} + {\sum\limits_{t = 1}^p {\left. {\frac{{^2{{\rm{l}}_{\rm{n}}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _s}{\beta _t}}}} \right|} _{\mathit{\boldsymbol{\beta }} = {\mathit{\boldsymbol{\beta }}^*}}} \cdot \\ ({{\hat \beta }_t} - \beta _t^*) + {O_p}(\sum\limits_{t = 1}^p ( {{\hat \beta }_t} - \beta _t^*)), \end{array} $ |
结合
由
| $ \frac{{{\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{{\beta _\tau }}} = {\mathit{\boldsymbol{x}}_\tau } \cdot {1_m} + \sum\limits_{i = 1}^n {{\delta _i}} \frac{{\sum\nolimits_{j \in R({t_i})} {{\mathit{\boldsymbol{x}}_{j\tau }}} {{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}}}{{\sum\nolimits_{j \in R({t_i})} {{{\rm{e}}^{\mathit{\boldsymbol{\beta x}}_j^{\rm{T}}}}} }} < \infty $ |
知
| $ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}} = \\ - {\left. {\frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = {\mathit{\boldsymbol{\beta }}^*}}} + \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} = \\ \sqrt n \{ \sqrt n {\lambda _1}(n) {\rm{sgn}} ({\beta _s}) + 2{o_p}(1){\beta _s}\} - {\rm{constan}} t。\end{array} $ |
由
(2) 由性质3知若
| $ {\left. {\frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = \mathit{\boldsymbol{\hat \beta }}(n)}} = 0,s = 1,2, \cdots ,d。$ |
记
由参考文献[11]中的定理9,可知
| $ \sqrt n ({\mathit{\boldsymbol{\hat \beta }}_{EPL}} - {\mathit{\boldsymbol{\beta }}^*})\mathop \to \limits^D {N_p}(\mathit{\boldsymbol{0}},\mathit{\boldsymbol{ \boldsymbol{\varSigma} }}), $ |
其中Σ表示
而
故
从而
| $ \frac{{\partial Q(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}} = - {\left. {\frac{{\partial {\rm{ln}}(\mathit{\boldsymbol{\beta }})}}{{\partial {\beta _s}}}} \right|_{\mathit{\boldsymbol{\beta }} = \mathit{\boldsymbol{\hat \beta }}(n)}} + 2o(1){\beta _s} = 0。$ |
又
故有
从而有
性质5证明由文献[11]中的定理10,知
| $ \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}({\mathit{\boldsymbol{\hat \beta }}_{EPL}})\mathop \to \limits^p \mathit{\boldsymbol{ \boldsymbol{\varSigma} }}({\mathit{\boldsymbol{\beta }}^*}),n \to \infty 。$ |
由性质4的(2)中证明, 知
| $ P\{ \sqrt n \left\| {\mathit{\boldsymbol{\hat \beta }}(n) - {{\mathit{\boldsymbol{\hat \beta }}}_{EPL}}} \right\| = 0\} = 1, $ |
从而
| [1] |
Fan J, Li R. Variable selection via nonconcave penalized likelihood and its oracle properties[J]. Journal of the American Statistical Association, 2001, 96(456): 1348-1360. DOI:10.1198/016214501753382273
( 0) |
| [2] |
West M, Blanchettem C, Dressman H, et al. Predicting the clinical status of human breast cancer using gene expression profiles[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98: 11462-11467. DOI:10.1073/pnas.201162998
( 0) |
| [3] |
Hastie T, Tibshirani R, Eisen M B, et al. 'Gene shaving' as a method for identifying distinct sets of genes with similar expression patterns[J]. Genome Biology, 2000, 1(2): 1-21.
( 0) |
| [4] |
Ramón Díaz-Uriarte, Casado D. Can we Find Molecular Signatures from Gene Expression Data?[C]. Spanish: Spanish Biomformatics Conference, 2004.
( 0) |
| [5] |
Hastie T, Tibshirani R, Botstein D, et al. Supervised harvesting of expression trees[J]. Genome Biology, 2001, 2(1): 1-12.
( 0) |
| [6] |
Dettling M, Peter Bühlmann. Finding predictive gene groups from microarray data[J]. Journal of Multivariate Analysis, 2004, 90(1): 106-131. DOI:10.1016/j.jmva.2004.02.012
( 0) |
| [7] |
Segal M R, Dahlquist K D, Conklin B R. Regression approaches for microarray data analysis[J]. Journal of Computational Biology, 2003, 10(6): 961-980. DOI:10.1089/106652703322756177
( 0) |
| [8] |
Zou H, Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society, 2005, 67(2): 301-320. DOI:10.1111/j.1467-9868.2005.00503.x
( 0) |
| [9] |
Tibshirani R. The lasso method for variable selection in the cox model[J]. Statistics in Medicine, 1997, 16(4): 385-395. DOI:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3
( 0) |
| [10] |
Fan J, Li R. Variable selection for cox's proportional hazards model and frailty model[J]. The Annals of Statistics, 2002, 30(1): 74-99. DOI:10.1214/aos/1015362185
( 0) |
| [11] |
Li H, Luan Y. Kernel Cox regression models for linking gene expression profiles to censored survival data[J]. Pacific Symposium on Biocomputing Pacific Symposium on Biocomputing, 2003, 8(12): 65.
( 0) |
| [12] |
Zhang H H, Lu W. Adaptive lasso for cox's proportional hazards model[J]. Biometrika, 2007, 94(3): 691-703. DOI:10.1093/biomet/asm037
( 0) |
| [13] |
Zou H. A note on path-based variable selection in the penalized proportional hazards model[J]. Biometrika, 2008, 95(1): 241-247. DOI:10.1093/biomet/asm083
( 0) |
| [14] |
闫丽娜.惩罚COX模型和弹性网技术在高维数据生存分析中的应用[D].太原: 山西医科大学, 2011. Yan L N. The Application of Punishment COX Model and Elastic net Technology in Survival Analysis of High-dimensional Data[D]. Taiyuan: Shanxi Medical University, 2011. ( 0) |
| [15] |
侯文, 侯向艳, 刘琦. Cox比例风险模型的桥估计[J]. 辽宁师范大学学报(自然科学版), 2012, 35(1): 9-12. Hou W, Hou X, Liu Q. Bridge estimator for Cox's proportional hazard model[J]. Journal of Liaoning Normal University (Natural Science Edition), 2012, 35(1): 9-12. ( 0) |
| [16] |
邓秋玲. SCAD和ADS方法在比例风险模型中的应用[D].南宁: 广西大学, 2015. Deng Q. SCAD and ADS Methods for Proportional Hazards Model[D]. Nanning: Guangxi University, 2015. ( 0) |
| [17] |
刘丹, 郑少智. Cox模型中的自适应Lasso变量选择[J]. 统计与决策, 2016(10): 7-10. Liu D, Zheng S Z. Adaptive Lasso variable selection method with Cox model[J]. Statistics and Decision, 2016(10): 7-10. ( 0) |
| [18] |
Kalbfleisch D, Prentice R L. The Statistical Analysis of Failure Time Data[M]. New York: Wiley, 1980.
( 0) |
2. School of Mathematics and Statistics, Northeast Normal University, Changchun 130024, China
2020, Vol. 50


0)