PASS软件实现临床试验中非劣效、等效和优效性检验的样本量估算

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.05.032
中华医学会主办。

文章信息

王媛媛, 孙瑞华.

Wang Yuanyuan, Sun Ruihua.

Application of PASS in sample size estimation of non-inferiority, equivalence and superiority design in clinical trials

中华流行病学杂志, 2016, 37(5): 741-744

Chinese Journal of Epidemiology, 2016, 37(5): 741-744

http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.05.032

文章历史

投稿日期: 2016-01-19

引用本文

王媛媛, 孙瑞华. PASS软件实现临床试验中非劣效、等效和优效性检验的样本量估算[J]. 中华流行病学杂志, 2016, 37(5): 741-744 复制到剪切板

Wang Yuanyuan, Sun Ruihua. Application of PASS in sample size estimation of non-inferiority, equivalence and superiority design in clinical trials[J]. Chinese Journal of Epidemiology, 2016, 37(5): 741-744. 复制到剪切板

PASS软件实现临床试验中非劣效、等效和优效性检验的样本量估算

王媛媛¹, 孙瑞华²

1. 100050 北京市东城区疾病预防控制中心性病艾滋病防治科;
2. 100029 北京, 中日友好医院科研处

收稿日期: 2016-01-19

通信作者: 孙瑞华,Email:sunruihua@263.net;

摘要: 用PASS 11软件对非劣效、等效和优效性设计的临床试验进行样本量估算,并与SAS软件运行结果进行比较,探讨PASS 11软件在临床科研中计算样本量的实用性和准确性,为科研工作者在临床试验设计阶段进行科学的样本量估算提供帮助。

关键词: 非劣效等效优效样本量

Application of PASS in sample size estimation of non-inferiority, equivalence and superiority design in clinical trials

Wang Yuanyuan¹, Sun Ruihua²

1. Department of Sexually Transmitted Diseases and AIDS Prevention and Control, Dongcheng District Center for Disease Control and Prevention, Beijing 100050, China;
2. Scientific Research Department, China-Japanese Friendship Hospital, Beijing 100029, China

Corresponding author: Sun Ruihua, Email:sunruihua@263.net;

Abstract: The sample size of non-inferiority, equivalence and superiority design in clinical trial was estimated by using PASS 11 software. The result was compared with that by using SAS to evaluate the practicability and accuracy of PASS 11 software for the purpose of providing reference for sample size estimation in clinical trial design.

Key words: Non-inferiority Equivalence Superiority Sample size

为使两种药物疗效的差异大小及方向性能揭示出临床实际意义，非劣效、等效和优效性假设检验已普遍应用于临床试验中。在临床试验的设计阶段，确定样本量是首先需要考虑的问题，且样本量的大小必须合理，如果样本量过小，达不到所要求的检验效能，会出现假阴性的结果，样本量过大，提高了检验效能，但是会在试验过程中导致人力、物力、财力和试验时间的大量浪费^[1]。目前，能够估算样本量的方法较多，应用较广泛的方法是以公式为基础的SAS编程，SAS软件可以应用更加复杂的模块，例如Monte Carle方法，对样本量和检验效能进行更加深入的探讨^[2]，但是对于编程软件不太精通的人士，SAS软件使用难度很大。PASS，即Power Analysis and Sample Size，是由美国NCSS公司开发的一款样本量计算软件，覆盖了几乎所有的样本量计算方法，其界面友好，操作简单，可以满足临床科研需要。本文将介绍PASS软件，并将该软件样本量估算结果与SAS程序样本量估算结果进行比较，讨论PASS软件的准确性。SAS计算样本量的程序参照胡良平主编的《SAS统计分析教程》^[3]。

1. 样本量计算的基本公式：

式中u_α和u_β是检验水准α和第二类错误概率 β对应的u值；α为检验水准；σ是总体标准差，在率的比较时一般用总体率π代替；Δ为研究者预先设定的界值；δ指容许误差，为两药物效应值之差；Q₁和Q₂为两组样本比例^[4]。

2. PASS软件实现不同检验类型的样本量估算：

（1）非劣效检验：非劣效检验的目的是验证试验药与阳性对照药相比，其效果不能低于一个事先给定的、临床上可以接受的界值，这个界值称为非劣效界值^[5]，且为负数，常记作-Δ。

【例1】降压药A与B进行非劣效设计，两组按照1 ：1的比例安排例数，根据以往的文献资料，试验组A药DBP的下降描述性统计结果为-15.7±6.4，135例；对照组B药DBP的下降描述性统计结果为-16.0±6.8，135例，取α＝0.05，β＝0.2和0.1，考虑非劣效界值为-1、-1.5、-2，A药与B药DBP的下降值的差值 δ＝0.3，估算每组的例数。

在PASS 11软件中，成组设计均值的非劣效检验样本量估计依次选择Non-inferiority/Means/Non-inferiority Tests for Two Means[differences]，打开参数设置界面见图 1。进行样本量估算，Find选择N1，Power输入检验效能（1-β），Alpha输入检验水准α，R输入两组样本比值，NIM输入非劣效界值，D输入两药物效应值之差δ，S1和S2输入通过预试验或者查阅历史资料和文献获得的试验药和对照药的疗效标准差，单击RUN进行运算。将PASS 11和SAS程序运行得出的试验组例数进行比较，结果见表 1，两种方法计算得出的样本量差别为1～2例，计算结果基本一致。

图 1 成组设计均值的非劣效检验样本量估算参数设置界面

图选项

表 1 PASS与SAS估算成组设计均值非劣效检验的样本量对比

表选项

（2）优效性检验：优效性检验的目的是显示所研究的药物效果优于对照药物（阳性药或安慰剂对照），推断具有临床意义的优效性，需要确定临床上可以接受的界值，这个界值称为优效界值，记作Δ（Δ＞0）^[6]。

【例2】试验药A与对照药B进行优效性试验设计，两组按照1 ：1的比例安排例数，根据以往的文献资料，A药描述性统计结果为12.25±3.4，120例；B药描述性统计结果为10.53±3.8，120例，取α＝0.05，β＝0.2和0.1，考虑优效界值为0.5、1.0、1.2，A药与B药两药物效应值之差δ＝1.72，估算每组的例数。

成组设计均值的优效性检验样本量估计依次选择Means/Two Independent Means/Test（Non-Zero Null）/Tests for Two Means with Non-Zero Null（Two-sample T-Test） [differences]，打开参数设置界面见图 2。优效性检验PASS 11参数设置与非劣效检验参数基本一致，单击RUN进行运算。将PASS 11和SAS程序运行得出的试验组例数进行比较，结果见表 2，两种方法计算得出的样本量差别为1～2例，计算结果基本一致。

图 2 成组设计均值的优效检验样本量估算参数设置界面

图选项

表 2 PASS与SAS估算成组设计均值优效检验的样本量对比

表选项

（3）等效性检验：等效性检验研究目的是要显示两种处理的反应间差异大小在临床上并无意义，通过真正的差异在临床上可以接受的等效上下界值（-Δ，Δ）间来证实。

【例3】例1设计改为等效性检验设计，取α＝0.05，β＝0.2和0.1，考虑等效界值分别为（-1，1）、（-1.5，1.5）、（-2，2），A药与B药DBP下降值的差值δ＝0.3，估算每组的例数。

在PASS 11软件中，成组设计均值的等效性检验的样本量估计依次选择Means/Two Independent Means/Equivalence/Equivalence Tests for Two Means [differences]，打开参数设置界面见图 3。成组设计均值的等效性检验参数设置与非劣效一致，只是需要输入合并标准差。将PASS 11和SAS程序运行得出的试验组例数进行比较，结果见表 3，两种方法计算得出的样本量差别较大，SAS程序运行结果比PASS 11程序运行结果的样本量多。

图 3 成组设计均值等效性检验的样本量估算参数设置界面

图选项

表 3 PASS与SAS估算成组设计均值等效性检验的样本量对比

表选项

3. 临床试验设计中样本量的确定：确定临床研究目的之后，研究者首先考虑试验设计，包括对照选择和比较的类型，其次考虑统计学分析方法，提出效应量和统计特征，最后也是最重要的部分即样本量的估算，但是软件计算的样本量结果并不是临床试验中要收集的病例数，要根据试验的脱落率和依从性进行适当调整，目前国内注册试验脱落率均控制在20%以内。如例1中，考虑非劣效界值为-1，A药与B药DBP下降值的差值δ＝0.3，PASS 11软件估算试验组和对照组例数均为320例，考虑20%脱落率，在临床试验开展阶段，试验组和对照组各入组384例。

4. 讨论：PASS 11软件计算非劣效和优效性检验样本量结果与SAS软件的运行结果基本一致，PASS 11软件运行结果与SAS软件的运行结果相比，多1～2例，说明在SAS软件运用有难度的情况下，完全可以用PASS软件实现这两类检验的样本量估算。但是等效性检验样本量估算时，两种软件运行结果相差太大，PASS 11软件以等效性检验样本量估算的公式为基础，这是最简单的方法，但β 存在取单侧还是双侧的分歧，且在样本量很小或变异很大的时候，利用公式估算检验效能应该慎重^[7]。其他等效性检验样本量的计算方法研究提出：模拟方法的结果可靠，但是费时费力，Phillips法更加科学，但是原理难以理解。此类研究没有提出等效性检验样本量估算的实用方法^[8]。而胡良平和高辉^[3]编写的等效性检验样本量估算的SAS软件程序中，并未使用样本量计算公式，而是循环迭代样本量直接计算检验效能，若样本量取值可以达到检验效能，则跳出循环，SAS软件中的程序绕过了计算公式中有分歧的部分，根据检验效能循环反推出样本量。因此等效检验的样本量估算，使用循环迭代的SAS软件要更加准确。

通过比较三种不同设计下样本量估计结果，发现样本量也有一定的变化趋势。随着非劣效界值（-Δ）、优效界值（Δ）和等效界值下限（-Δ）逐渐增大，样本量增加，界值越接近容许误差，样本量越大。当其他参数不变，检验效能越大，样本量越大。在界值相同的条件下，等效性检验的样本量要大于非劣效检验的样本量。

非劣效、等效和优效性检验结局指标是率指标的话，非劣效检验的样本量估计依次选择：Non-inferiority/Proportions/Non-inferiority Tests for Two Proportions[differences]；优效性检验样本量估计依次选择：Proportions/Two Independent Proportions/ Test（Non-Zero Null）/Tests for Two Proportions（Non-Zero Null Hypothesis）[differences]；等效性检验样本量估计依次选择：Proportions/Two Independent Proportions/Equivalence/Equivalence Tests for Two Proportions[differences]。可以参照PASS 11软件右侧的注释栏查看具体参数的意义和填写方法。

PASS软件目前涵盖的统计学检验超过680种，覆盖了几乎所有临床试验设计所需的样本量计算方法，在NCSS官网上有软件的使用说明、视频及试用版可以免费下载，经过20年不断进行调试和完善，该软件已成为临床试验样本量估算的较好选择。但临床试验有其严谨性和准确性，在估算样本量时，对于有分歧的方法，有必要选择多种方式进行研究和估算，得到更科学的样本量。

利益冲突 无

参考文献

[1] Rothman KJ,Greenland S,Lash TL. Modern epidemiology[M]. 3^rd ed. Philadelphia:Wolters Kluwer,Lippincott Williams & Wilkins,2008.

[2] Kalilani L,Atashili J. Measuring additive interaction using odds ratios[J]. Epidemiol Perspect Innov,2006,3:5. DOI:10.1186/1742-5573-3-5.

[3] Richardson DB,Kaufman JS. Estimation of the relative excess risk due to interaction and associated confidence bounds[J]. Am J Epidemiol,2009,169(6):756-760. DOI:10.1093/aje/kwn411.

[4] Nie L,Chu HT,Li F,et al. Relative excess risk due to interaction:resampling-based confidence Intervals[J]. Epidemiology,2010,21(4):552-556. DOI:10.1097/EDE.0b013e3181e09b0b.

[5] Chu HT,Nie L,Cole SR. Estimating the relative excess risk due to interaction:a Bayesian approach[J]. Epidemiology,2011,22(2):242-248. DOI:10.1097/EDE.0b013e318208750e.

[6] Andersson T,Alfredsson L,Källberg H,et al. Calculating measures of biological interaction[J]. Eur J Epidemiol,2005,20(7):575-579. DOI:10.1007/s10654-005-7835-x.

[7] 邱宏,余德新,王晓蓉,等. Logistic回归模型中交互作用的分析及评价[J]. 中华流行病学杂志,2008,29(9):934-937. DOI:10.3760/cma.j.issn. 0254-6450.2008.09.019. Qiu H,Yu DX,Wang XR,et al. Study on the interaction under logistic regression modeling[J]. Chin J Epidemiol,2008,29(9):934-937.DOI:10.3760/cma.j.issn.0254-6450.2008.09.019.

[8] Zou GY. On the estimation of additive interaction by use of the four-by-two table and beyond[J]. Am J Epidemiol,2008,168(2):212-224. DOI:10.1093/aje/kwn104.

[9] Vander Weele TJ,Knol MJ. A tutorial on interaction[J]. Epidemiol Methods,2014,3(1):33-72. DOI:10.1515/em-2013-0005.

[10] 聂志强,欧艳秋,陈寄梅,等. 2004至2011年广东省胎婴儿先天性心脏病危险因素分析[J]. 中华心血管病杂志,2013,41(8):704-708. DOI:10.3760/cma.j.issn.0253-3758.2013.08.016. Nie ZQ,Ou YQ,Chen JM,et al. Risk factors of congenital heart defects in fetal and infants born from 2004 to 2011 in Guangdong[J]. Chin J Cardiol,2013,41(8):704-708. DOI:10.3760/cma.j.issn.0253-3758.2013.08.016.

[11] Ou YQ,Mai JZ,Zhuang J,et al. Risk factors of different congenital heart defects in Guangdong,China[J]. Pediatr Res,2016. DOI:10.1038/pr.2015.264.

[12] Knol MJ,Vander Weele TJ. Recommendations for presenting analyses of effect modification and interaction[J]. Int J Epidemiol,2012,41(2):514-520. DOI:10.1093/ije/dyr218.