
2. 中国科学院数学与系统科学研究院, 北京 100190
2. Academy of Mathematics and Systems Science, Chinese Academy of Sciences, Beijing 100190, China
在实际的生产制造过程中,过程能力指数(process capability indices,PCIs)用于衡量一个过程的生产能力,是反映过程能力的一个重要的量化指标。工厂质量管理者可用PCIs判断一个过程是否处于控制状态,以此指导生产。根据方向的不同,PCIs的研究主要分为2类:一是在各种情况下,通过构建不同的PCIs更好地描述过程;二是对已构造的PCIs,探讨这些指数及其估计量的性质。
PCIs的研究以产品质量特性服从参数为μ和σ的正态概率模型N(μ, σ2)为前提,下文用USL和LSL分别表示产品质量规格的上、下限,μ表示过程均值,σ表示过程标准差,d=(USL-LSL)/2代表规格区间长度的一半,m=(USL+LSL)/2代表规格上限与规格下限之间的中点,T表示客户期望的目标值。第1个PCI是Juran等[1]提出的Cp,其定义如下
Cp=USL−LSL6σ | (1) |
之后PCIs得到长足的发展,Kane[2]、Chan等[3]和Pearn等[4]分别推广出Cpk、Cpm和Cpmk,这3个指数的定义依次为
Cpk=min{USL−μ3σ,μ−LSL3σ}=d−|μ−m|3σ, | (2) |
Cpm= USL - LSL 6√σ2+(μ−T)2=d3√σ2+(μ−T)2, | (3) |
Cpmk=min{USL−μ3√σ2+(μ−T)2,μ−LSL3√σ2+(μ−T)2}=d−|μ−m|3√σ2+(μ−T)2. | (4) |
随后,Vännman[5]将上述4个PCIs推广得到Cp(u, v),该指数依赖于2个非负参数u和v,具体形式如下所示
Cp(u,v)=d−u|μ−m|3√σ2+v(μ−T)2. |
当质量特性不服从正态分布时,Chen和Pearn[6]给出Cp(u, v)的扩展形式
CNρ(u,v)=d−u|M−m|3√(F99.865−F0.1356)2+v(M−T)2, | (5) |
其中:Fα表示质量特性服从分布的α分位数,M为分布的中位数。
对于PCIs的统计推断,许多学者采用bootstrap方法构造PCIs的置信区间。如Franklin和Wasserman[7]首先将bootstrap方法应用于求解Cpk的置信区间;Tong和Chen[8]研究非正态情况下的bootstrap方法,之后又给出了正态假设下2个PCIs差的bootstrap置信区间[9];Panichkitkosolkul[10]分析过程服从半逻辑分布(half Logistic distribution)时2个过程能力指数差的bootstrap置信区间;Rao等[11]提出在逆瑞利分布(inverse Rayleigh distribution, IRD)和对数逻辑分布(log-logistic distribution, LLD)下非正态过程能力指数CNpk的bootstrap置信区间; 颜斌等[12]在前人研究的基础上重新设计指数Cp和Cpm,并构造了新指数的标准、分位数和偏差校正百分位数3种bootstrap置信区间;徐锋等[13]在过程数据分布未知且存在自相关的情况下利用bootstrap方法构建了过程能力指数Cpk的置信区间。
广义p值的概念由Tsui和Weerahandi[14]在1989年引入,并由Weerahandi[15]于1993年推广至区间估计。此后广义推断方法成功地求解了一些复杂的推断问题,很多文献的模拟结果表明广义推断方法通常具有良好的频率特性。由此出现了大量的文献研究PCIs的广义推断问题。Mathew等[16]运用广义推断方法构造了Cpk的置信下限;Kurian等[17]基于单因素随机效应模型给出了3个指数Cpk、Cpmk以及C″pk的广义置信区间,这里C″pk的定义为
IRD和LLD在可靠性领域、质量控制和生存分析等发挥着极其重要的作用[22-29]。本文重点研究过程能力指数CNpk的区间估计,该指数定义为
CNpk=2min{USL−MF99.865−F0.135,M−LSLF99.865−F0.135}. | (6) |
结合式(5)和式(6),可以发现当(u, v)=(1, 0)时,CNpk=CNp(1, 0)。通过对文献中关于PCIs的深入分析,注意到在IRD和LLD 2种分布下关于PCIs的广义置信区间至今还未被探讨。因此,本文的研究重点是利用广义推断的思想构造这2种分布下过程能力指数CNpk的广义枢轴量与广义置信区间,然后与Rao等[11]提出的bootstrap置信区间进行比较。
1 广义置信区间枢轴量法是构造置信区间最常用的方法之一。然而,当统计推断问题中存在讨厌参数时,这种方法往往难以使用。尽管大样本近似方法被广泛应用于求解此类问题,但当样本量较小或中等时,其表现往往不够理想。为了解决这些问题,文献[15]引入广义枢轴量的概念,并提出基于广义枢轴量的广义置信区间。下面先简要回顾这种方法,更多细节可参考文献[30]。
令随机变量X=(X1, X2, …, Xn),变量X的样本观测值是x,η=(θ, δ), θ是未知的兴趣参数,δ是一个讨厌参数向量,R=R(X; x, η)是关于变量X, x和η的函数。如果R满足下面2个条件:
1) 对于给定的观测值x,R的概率分布与未知参数无关;
2) R=R(X; x, η)的观测值r(x)=R(X; x, η)不依赖讨厌参数δ。
则称R是一个广义枢轴量。
若给定广义枢轴量R=R(X; x, η)和置信水平γ(0 < γ < 1),在R的样本空间寻找一个满足P(R(X; x, η)∈Cγ)=γ的子集Cγ。
取Θγ={θ|R(X; x, η)∈Cγ},则称Θγ为参数θ的一个置信系数为γ的广义置信区间。
2 方法 2.1 逆瑞利分布下CNpk的广义置信区间逆瑞利分布被应用于多种领域。Mukherjee和Saran[22]指出IRD是一类特殊的非单调失效率分布,在可靠性研究中具有很重要的应用。文献[26, 28]研究了IRD分布下的验收抽样设计。一些学者又考虑了IRD的统计推断研究:Maleki Jebely等[31]分析简单随机抽样下IRD的分布函数估计问题;龙兵和张忠占[32]基于左删失样本,分析在部分加速寿命试验下IRD参数的极大似然估计(maximum likelihood estimation, MLE)和置信区间;陈蒙等[33]给出基于简单随机抽样和排序集抽样IRD对应样本所含参数的Fisher信息量及参数的MLE、修正MLE、最优线性无偏估计和最优线性同变估计。
若连续型随机变量T具有概率密度函数
若随机变量T: Rayleigh(σ),则称X=1/T服从尺度参数为σ的IRD,记作X: IRD(σ)。IRD的概率密度函数、累分布函数和α分位数函数依次为
f(x;σ)={2σ2x3e−σ2x2,x⩾0,0,x<0,F(x;σ)={e−σ2x2,x⩾0,0,x<0.ξIRDα=σ(−lnα)−12,σ>0. | (7) |
假设X=(X1, X2, …, Xn)是来自尺度参数为σ(σ>0)的逆瑞利随机变量,利用IRD的性质可得到
Rσ=√W/2n∑i=11x2i, | (8) |
其中
RCNpk(σ)=2min{USL−Rσ(−ln(p2))−12Rσ(−ln(p3))−12−Rσ(−ln(p1))−12,Rσ(−ln(p2))−12−LSLRσ(−ln(p3))−12−Rσ(−ln(p1))−12}, | (9) |
这里USL=29, LSL=1, p1=0.998 65, p2=0.5, p3=0.001 35。
下面给出计算IRD下过程能力指数CNpk的双边广义置信区间的算法: 设数据为X1, X2, …, Xn。
Step 1 产生自由度为2n的卡方分布随机变量;
Step 2 通过式(8)和式(9)计算参数σ的广义枢轴量Rσ和指数CNpk的广义枢轴量RCNpk(σ);
Step 3 重复Step 1和Step 2 M次。将这M个值的α/2和1-(α/2)分位点作为CNpk的1-α置信区间。
2.2 对数逻辑分布下CNpk的广义置信区间对数逻辑分布是一类重要的统计模型。Verhulst[34]在1838年首次提出用LLD模拟人口增长;文献[24]探究了这一分布在生存分析领域的应用;文献[23, 25, 27, 29]研究了LLD下截断寿命试验的几种验收抽样方案。He等[35]主要研究排序集抽样下LLD中尺度参数和形状参数的估计问题;Hassan和Doori[36]基于次序统计量研究平方损失函数下LLD生存函数和风险函数的贝叶斯估计;Ibrahim和Kalaf[37]开发了一种将下降单纯形法(simplex downhill algorithm)与矩量法(moment method)相结合的SMOM新方法来研究LLD生存函数的估计。
若随机变量Z的概率密度函数为
若随机变量Z~logistic(λ, β),令X=logZ,则称随机变量X服从尺度参数为λ、形状参数为β的双参数LLD,记作X~LLD(λ, β),其概率密度函数、累积分布函数和α分位数函数分别为
f(x;λ,β)=βλ(xλ)β−1(1+(xλ)β)2,x>0,λ>0,β>1,F(x;λ,β)=(xλ)β1+(xλ)β=xβxβ+λβ,x>0,λ>0,β>1,ξLLDα=λ(α1−α)1β. |
假定X=(X1, X2, …, Xn)是来自双参数LLD的简单随机样本,令Yi=-logxi~
Rλ=exp(1RβˉZ+1nn∑i=1logxi), | (10) |
Rβ=√n∑i=1Z2in∑i=1(−logxi−1nn∑i=1logxi)2, | (11) |
其中Z是Zi的样本均值。则LLD下过程能力指数CNpk的广义枢轴量为
RCNpl(λ,β)=2min{USL−Rλ(p21−p2)1RβRλ(p31−p3)1Rβ−Rλ(p11−p1)1Rβ,Rλ(p21−p2)1Rβ−LSLRλ(p31−p3)1Rβ−Rλ(p11−p1)1Rβ}, | (12) |
这里USL=29, LSL=1, p1=0.998 65, p2=0.5, p3=0.001 35。
下面介绍基于MLE的构造方法。给定X的n个样本观测值x1, x2, …, xn,参数是对数似然函数为
{∂lnL(λ,β)∂λ=βλ[2∑ni=1(xiλ)β1+(xiλ)β−n]=0,∂lnL(λ,β)∂β=nβ+∑ni=1ln(xiλ)−2∑ni=1ln(xiλ)F(xiλ)=0. | (13) |
通过求解上述方程组(13)得到尺度参数λ和形状参数β的
因此,得到基于MLE双参数LLD下过程能力指数CNpk的广义枢轴量为
RMIECNpk(λ,β)=2min{USL−RMLEλ(p21−p2)1RMIEβRMLEλ(p31−p3)1RMIEβ−RMLEλ(p11−p1)1RMIEβ,RMLEλ(p21−p2)1RMLEβ−LSLRMLEλ(p31−p3)1RMLEβ−RMLEλ(p11−p1)1RMLEβ} |
与上一小节类似,使用Monte Carlo方法计算对数逻辑分布下过程能力指数CNpk的双边广义置信区间。
设数据为X1, X2, …, Xn。
Step 1 产生标准逻辑分布LLD(0, 1)的随机变量;
Step 2 通过式(10)、式(11)与式(12)计算λ和β以及CNpk的广义枢轴量;
Step 3 将Step 1至Step 2重复操作M次,把得到的M个广义枢轴量按照从小到大的顺序排列,取它的α/2和1-(α/2)分位点作为过程能力指数CNpk的一个双边置信区间。
3 数值模拟这一小节通过Monte Carlo数值模拟比较IRD和LLD 2种分布下过程能力指数CNpk的广义置信区间和文献[11]提出的bootstrap置信区间。在模拟过程中,基于5 000个蒙特卡罗样本计算置信区间,通过2 000次的重复计算区间的覆盖率和平均长度。在样本容量n与参数的多种组合下的仿真结果如表 1和表 2所示。
![]() |
表 1 逆瑞利分布下过程能力指数CNpk95% 置信区间的覆盖概率和平均置信长度 Table 1 The coverage probabilities and average confidence length of the 95% confidence interval for CNpkunder the inverse Rayleigh distribution |
![]() |
表 2 对数逻辑分布下过程能力指数CNpk95%置信区间的覆盖概率和平均置信长度 Table 2 The coverage rates and average confidence lengths of the 95% confidence intervals for CNpk under the log-logistic distribution |
从表中可以看出:广义置信区间的覆盖率接近名义水平,而当样本量n较小时bootstrap置信区间覆盖率较低。我们提出的广义置信区间方法比bootstrap方法的总体性能更优。对于LLD而言,基于MLE的广义置信区间在平均宽度方面优于基于矩估计的广义置信区间。
4 实例分析本节使用Zimmer等[39]讨论的Burr XII可靠性分析的真实数据集来验证所提出的方法。数据观测值记录了在大型制造工厂中用于内部运输和交付的20个电动推车的首次故障时间(以月为单位):
{0.9, 1.5, 2.3, 3.2, 3.9, 5.0, 6.2, 7.5, 8.3, 10.4, 11.1, 12.6, 15.0, 16.3, 19.3, 22.6, 24.8, 31.5, 38.1, 53.0}
文献[11]利用Kolmogorov-Smirnov (K-S)检验验证了数据符合LLD的合理性。在对数逻辑分布下,应用2种广义置信区间和bootstrap置信区间这3种方法构造基于此数据集过程能力指数CNpk的置信区间。结果如表 3所示,可以看出本文提出的广义置信区间的长度小于bootstrap方法的区间长度,且基于MLE的广义置信区间长度最短。
![]() |
表 3 给定数据集下过程能力指数CNpk95%置信区间及其区间长度 Table 3 The 95% confidence intervals and their lengths of CNpk under the given dataset |
本文构造了逆瑞利分布和对数逻辑分布下过程能力指数CNpk的广义置信区间。数值模拟和实例均表明,特别是在小样本容量的情况下,我们的方法优于现有的bootstrap方法。这与许多文献的结论一致,即广义推断方法是解决小样本推断问题的一种优良选择。未来的一个有趣课题是将广义推断方法应用于不同分布下其他过程能力指数的研究中。
[1] |
Juran J M, Gryna F M, Bingham R S. Quality control handbook[M]. 3rd ed. New York: McGraw-Hill, 1974.
|
[2] |
Kane V E. Process capability indices[J]. Journal of Quality Technology, 1986, 18(1): 41-52. Doi:10.1080/00224065.1986.11978984 |
[3] |
Chan L K, Cheng S W, Spiring F A. A new measure of process capability: Cpm[J]. Journal of Quality Technology, 1988, 20(3): 162-175. Doi:10.1080/00224065.1988.11979102 |
[4] |
Pearn W L, Kotz S, Johnson N L. Distributional and inferential properties of process capability indices[J]. Journal of Quality Technology, 1992, 24(4): 216-231. Doi:10.1080/00224065.1992.11979403 |
[5] |
V? nnman K. A unified approach to capability indices[J]. Statistica Sinica, 1995, 5(2): 805-820. |
[6] |
Chen K S, Pearn W L. An application of non-normal process capability indices[J]. Quality and Reliability Engineering International, 1997, 13(6): 355-360. Doi:10.1002/(sici)1099-1638(199711/12)13:6<355:aid-qre125>3.0.co;2-v |
[7] |
Franklin L A, Wasserman G S. A note on the conservative nature of the tables of lower confidence limits for Cpk with a suggested correction[J]. Communications in Statistics-Simulation and Computation, 1992, 21(4): 1165-1169. Doi:10.1080/03610919208813070 |
[8] |
Tong L I, Chen J P. Lower confidence limits of process capability indices for non-normal process distributions[J]. International Journal of Quality & Reliability Management, 1998, 15(8/9): 907-919. Doi:10.1108/02656719810199006 |
[9] |
Tong L I, Chen J P. Bootstrap confidence interval of the difference between two process capability indices[J]. The International Journal of Advanced Manufacturing Technology, 2003, 21(4): 249-256. Doi:10.1007/s001700300029 |
[10] |
Panichkitkosolkul W. Bootstrap confidence intervals of the difference between two process capability indices for half logistic distribution[J]. Pakistan Journal of Statistics and Operation Research, 2012, 8(4): 878. Doi:10.18187/pjsor.v8i4.455 |
[11] |
Rao G S, Aslam M, Kantam R R L. Bootstrap confidence intervals of CNpk for inverse Rayleigh and log-logistic distributions[J]. Journal of Statistical Computation and Simulation, 2016, 86(5): 862-873. Doi:10.1080/00949655.2015.1040799 |
[12] |
颜斌, 王斌会, 徐锋. 过程能力指数样本估计及置信区间构建方法[J]. 统计与决策, 2020, 36(10): 37-41. Doi:10.13546/j.cnki.tjyjc.2020.10.007 |
[13] |
徐锋, 王斌会, 颜斌. 面向未知自相关过程能力指数的Bootstrap区间估计[J]. 统计与决策, 2022, 38(5): 17-22. Doi:10.13546/j.cnki.tjyjc.2022.05.003 |
[14] |
Tsui K W, Weerahandi S. Generalized p-values in significance testing of hypotheses in the presence of nuisance parameters[J]. Journal of the American Statistical Association, 1989, 84(406): 602-607. Doi:10.1080/01621459.1989.10478810 |
[15] |
Weerahandi S. Generalized confidence intervals[J]. Journal of the American Statistical Association, 1993, 88(423): 899-905. Doi:10.1080/01621459.1993.10476355 |
[16] |
Mathew T, Sebastian G, Kurian K M. Generalized confidence intervals for process capability indices[J]. Quality and Reliability Engineering International, 2007, 23(4): 471-481. Doi:10.1002/qre.828 |
[17] |
Kurian K M, Mathew T, Sebastian G. Generalized confidence intervals for process capability indices in the one-way random model[J]. Metrika, 2008, 67(1): 83-92. Doi:10.1007/s00184-006-0123-2 |
[18] |
Ye R D, Ma T F, Wang S G. Generalized confidence intervals for the process capability indices in general random effect model with balanced data[J]. Statistical Papers, 2011, 52(1): 153-169. Doi:10.1007/s00362-009-0216-x |
[19] |
Kanichukattu J K, Luke J A. Comparison between two process capability indices using generalized confidence intervals[J]. The International Journal of Advanced Manufacturing Technology, 2013, 69(9): 2793-2798. Doi:10.1007/s00170-013-5244-y |
[20] |
Yao C, Jun Y. Generalized confidence intervals for process capability indices of log-normal distribution in the one-way random model[C]//2016 Prognostics and System Health Management Conference (PHM-Chengdu). Chengdu, China. IEEE, 2016: 1-5. DOI: 10.1109/PHM.2016.7819855.
|
[21] |
贺加贝, 李新民. 不平衡单因素随机效应模型下过程无能力指数的区间估计[J]. 系统科学与数学, 2020, 40(2): 281-288. Doi:10.12341/jssms13815 |
[22] |
Mukherjee S P, Saran L K. Bivariate inverse Rayleigh distribution in reliability studies[J]. Journal of the Indian Statistical Association, 1984, 22: 23-31. |
[23] |
Kantam R R L, Srinivasa Rao G, Sriram B. An economic reliability test plan: log-logistic distribution[J]. Journal of Applied Statistics, 2006, 33(3): 291-296. Doi:10.1080/02664760500445681 |
[24] |
O'Quigley J, Struthers L. Survival models based upon the logistic and log-logistic distributions[J]. Computer Programs in Biomedicine, 1982, 15(1): 3-11. Doi:10.1016/0010-468X(82)90051-4 |
[25] |
Kantam R R L, Rosaiah K, Rao G S. Acceptance sampling based on life tests: log-logistic model[J]. Journal of Applied Statistics, 2001, 28(1): 121-128. Doi:10.1080/02664760120011644 |
[26] |
Rosaiah K, Kantam R R L. Acceptance sampling based on the inverse Rayleigh distribution[J]. Economic Quality Control, 2005, 20(2): 277-286. Doi:10.1515/eqc.2005.277 |
[27] |
Rao G S, Kantam R R L. Acceptance sampling plans from truncated life tests based on the log-logistic distributions for percentiles[J]. Economic Quality Control, 2010, 25(2): 153-167. Doi:10.1515/eqc.2010.008 |
[28] |
Rao G S, Kantham R R L, Rosaiah K, et al. Acceptance sampling plans for percentiles based on the inverse Rayleigh distribution[J]. Electronic Journal of Applied Statistical Analysis, 2012, 5(3): 164-177. Doi:10.1285/I20705948V5N2P164 |
[29] |
Srinivasa Rao G, Rosaiah K, Prasad S V S V S V. New acceptance sampling plans based on percentiles for type-II generalized log-logistic distribution[J]. American Journal of Applied Mathematics and Statistics, 2019, 7(4): 131-137. Doi:10.12691/ajams-7-4-2 |
[30] |
Weerahandi S. Exact statistical methods for data analysis[M]. New York, NY: Springer New York, 1995. Doi:10.1007/978-1-4612-0825-9
|
[31] |
Maleki Jebely F, Zare K, Deiri E. Efficient estimation of the PDF and the CDF of the inverse Rayleigh distribution[J]. Journal of Statistical Computation and Simulation, 2018, 88(1): 75-88. Doi:10.1080/00949655.2017.1378656 |
[32] |
龙兵, 张忠占. 左删失恒定应力部分加速寿命试验下逆Rayleigh分布的参数估计[J]. 浙江大学学报(理学版), 2020, 47(3): 315-321. Doi:10.3785/j.issn.1008-9497.2020.03.008 |
[33] |
陈蒙, 陈望学, 邓翠红, 等. 排序集抽样下inverse Rayleigh分布的Fisher信息量及其在参数估计中的应用[J]. 系统科学与数学, 2022, 42(1): 141-152. Doi:10.12341/jssms21498 |
[34] |
Verhulst P F. Notice sur la loi que la population suit dans son accroissement[J]. Correspondance Mathematique et Physique Publiee par A, 1838, 10: 113-121. |
[35] |
He X F, Chen W X, Yang R. Log-logistic parameters estimation using moving extremes ranked set sampling design[J]. Applied Mathematics-A Journal of Chinese Universities, 2021, 36(1): 99-113. Doi:10.1007/s11766-021-3720-y |
[36] |
Hassan S S, Doori E A A. Estimating the survival and risk functions of a log-logistic distribution by using order statistics with practical application[J]. International Journal of Nonlinear Analysis and Applications, 2022, 13(1): 2483-2502. Doi:10.22075/ijnaa.2022.5947 |
[37] |
Ibrahim A, Kalaf B A. Estimation of the survival function based on the log-logistic distribution[J]. International Journal of Nonlinear Analysis and Applications, 2022, 13(1): 127-141. Doi:10.22075/ijnaa.2022.5466 |
[38] |
Mu W Y, Xiong S F. Robust generalized confidence intervals[J]. Communications in Statistics-Simulation and Computation, 2017, 46(8): 6049-6060. Doi:10.1080/03610918.2016.1189566 |
[39] |
Zimmer W J, Keats J B, Wang F K. The burr XII distribution in reliability analysis[J]. Journal of Quality Technology, 1998, 30(4): 386-394. Doi:10.1080/00224065.1998.11979874 |