中国公共卫生  2012, Vol. 28 Issue (11): 1477-1480   PDF    
慢性病生命质量量表共性模块项目反应理论分析
杨铮1, 戚艳波2, 万崇华3 , 李晓梅2, 赵芝焕4, 段丽萍4, 潘家华4, 张晓磬2    
1. 广东医学院公共卫生学院流行病与卫生统计教研室, 广东东莞523808;
2. 昆明医学院公共卫生学院;
3. 广东医学院人文与管理学院;
4. 昆明医学院第一附属医院
摘要: 目的运用项目反应理论(IRT)对慢性病患者生命质量测定量表共性模块(QLICD-GM)条目进行分析,筛选信息量较高条目。方法 应用QLICD-GM测评7种慢性病患者620例,采用塞姆吉玛等级反应模型计算每个条目的难度、区分度系数和信息量,绘制项目特征曲线;根据平均信息量筛选条目;采用MULTILOG 7.0软件进行计算和作图。结果 QLICD-GM共性模块29个条目的区分度均为1.2~1.9;难度(程度)均呈严格单调递增,取值范围为-3.05~2.18;依据平均信息量,结合条目特征筛选保留24个条目。结论 QLICD-GM各条目区分度均较好、选项设置合理、难度合适,分析模型选择正确;项目反应理论可筛选出信息量较高条目,弥补经典测量理论(CTT)的不足。
关键词: 慢性病     生命质量     项目反应理论(IRT)     信息函数    
Analysis on items of general module of quality of life instrument for chronic diseases by item response theory
YANG Zheng, QI Yan-bo, WAN Chong-hua , et al    
Department of Epidemiology and Health Statistics, School of Public Health, Guangdong Medical College, Dongguan, Guangdong Province 523808, China
Abstract: Objective To analyze items of the general module of the quality of life instrument for chronic diseases (QLICD-GM)for selection of items with more information using item response theory(IRT).Methods A total of 602 inpatients with one of the 7 different chronic diseases were measured by QLICD-GM.With MULTILOG,Samejima's Graded Response Model was used to calculate parameters of discrimination and difficulty,information function,and to get item characteristic curve.Results Among the 29 items,the discrimination parameters of all items were between 1.2-1.9 and the difficulty parameters of each item increased monotonically for all items with a range from -3.05 to 2.18.Twenty-four items were selected as good ones by average information and item characteristics.Conclusion Each item of the QLICD-GM has good discrimination,suitable item choice and moderate difficulty.The item analysis based on item response theory can select good items with more information and refined characteristics to overcome weakness of classical test theory
Key words: chronic disease     quality of life     item response theory     information function    

随着疾病谱与健康观的改变,生命质量的研究日益受到重视。本课题组在国家自然科学基金资助下开发了慢性病患者生命质量测定量表体系(Quality of Life Instrument for Chronic Diseases,QLICD)[1, 2, 3, 4]。该体系(第1版)由适用于各种慢性病的共性模块QLICD-GM及10多种慢性病特异测定量表组成,其中的共性模块起着基础和核心的作用。为了进一步分析该体系共性模块各条目的难度、区分度、信息量等,为慢性病患者生命质量测定量表体系第2版的开发提供理论基础,本研究运用项目反应理论(item response theory,IRT)模型[5, 6, 7, 8],对该体系共性模块3个维度29个条目进行了分析和筛选。现将结果报告如下。

1 对象与方法 1.1 对象

昆明医学院第一附属医院确诊并住院治疗的高血压、冠心病、慢性胃炎、消化性溃疡、肠易激综合征、肺源性心脏病、慢性阻塞性肺病7种慢性疾病患者620例,进行生命质量测评。所有调查对象均具备一定读写能力,并自愿参加测评;排除文盲、入院时病情危重及神志不清患者。

1.2 方法 1.2.1 测评调查

采用本课题组研制的慢性病患者生命质量测定量表体系共性模块(QLICD-GM,V1.0)[1]对慢性病患者进行问卷调查和量表测评。该模块包括躯体功能、心理功能和社会功能3个维度共30个条目。调查由统一培训的调查员说明填表要求后,将量表发给患者,由患者根据自己的实际情况选答。

1.2.2 项目反应理论分析

(1)项目反应理论[5, 6, 7, 8]的基本原理:应用数学模型分析被测试者潜在特质(能力水平)与其对测验项目(条目)反应之间的关系,即以数学形式表达其能力与对测验项目正确作答概率之间的关系,从而综合分析项目(条目)的难度、区分度等特征,筛选条目和编制测验分数等。通常采用测验分数作为这种潜在特质(能力水平)的估算。(2)分析方法:根据慢性病患者测评结果,采用等级多分类资料的塞姆吉玛(Samejima)等级反应模型(其基本模型为logistic双参数模型)[5, 6],建立每个条目的特征曲线,以信息函数的大小并结合各条目区分度、难度等特征进行条目筛选。特征曲线基本公式为: px(θ)=[1+ 。其中,θ为被测试者的潜在特质(能力水平);xi为测试分数(xi=1,2,3…m);Pxi(θ)为能力水平为θ的被测试者在项目i上正确作答的概率;ai为第i个项目的区分度,指测试条目对被测试者潜在特性的区分能力。ai越大,则特征曲线起伏越大,表明项目与特质θ之间关联越密切。bxi为第xi个等级的难度,它表示被测试者以50%概率选择第i个及第i个以上等级答案时所对应特质θ的值,其平均值越大,表明该条目难度越小,反之则该条目难度越大。在心理测评和生存质量领域的等级资料,难度相当于条目不同等级的平均得分程度。当θ取标准分数量表时,biθ的取值在-2~+2[9]。(3)信息函数及测验信息函数:第i个条目的信息函数及测验信息函数计算公式为: , I(θ)=∑Ii(θ)=∑P'i(θ)2/Pi(θ)[1-Pi(θ)]。其中,Ii(θ)为条目信息函数,P'i(θ)是条目反应函数对θ的导数,Qi(θ)=1-Pi(θ);测验信息函数I(θ)=1/Sx(θ)2,它是测量标准误的倒数,表示测验信息函数值越大,对被测试者能力水平所做估计的误差越小。本研究选取5个θ参数分别为-2、-1、0、1、2的代表性位置点,分别计算各条目各点的信息函数值及其平均值。估计出各参数后,即可得到特征曲线公式,从而按上述公式求得条目信息函数Ii(θ)。

1.2.3 条目筛选判定标准

参照相关文献[8, 10],整个测验(量表)的信息量>25表明测评条目质量良好;信息量16~25表明测评条目有待改进;信息量<16表明测评条目很差。本研究预计QLICD-GM第2版最多包含34个条目,分别以16和25除以34,得到每个条目的平均信息量,其中条目平均信息量>0.74(25/34)的条目判定为优,<0.47(16/34)的条目判定为差,0.47(16/34)~0.74(25/34)的条目判定为好。

1.3 分析工具与策略

应用MULTILOG 7.0软件进行统计分析。采用塞姆吉玛等级反应模型计算每个条目难度、区分度系数和信息量,绘制项目特征曲线。分别按3个维度进行拟合与分析,其中,第30个条目"患病或治疗影响您的性生活吗"因同时涉及躯体功能、心理功能和社会功能3个维度未进行IRT分析。

2 结果 2.1 一般情况

620例慢性病患者中,男性379例,占61.13%,女性241例,占38.87%;年龄16~192岁,平均年龄(53.4±16.8)岁;其中慢性阻塞性肺病患者43例,占6.93%,慢性肺原性心脏病患者35例,占5.65%,消化性溃疡患者109例,占17.58%,慢性胃炎患者117例,占18.87%,肠易激综合征患者102例,占16.45%,高血压患者117例,占18.87%,冠心病患者97例,占15.65%。

2.2 各条目得分及难度与区分度

分析结果表明,29个条目的区分度均为1.2~1.9,表明各条目区分度均较好。其中躯体功能各条目的区分度系数为1.2,心理功能各条目区分度系数为1.9,社会功能各条目的区分度系数分别为1.45和1.56。难度系数从1~4级均呈正向递增,不存在逆反阈值,取值范围为-3.05~2.18,表明QLICD量表共性模块的各条目选项设置合理、难度合适,分析模型选择正确。

2.3 各条目平均信息量与筛选(表 1)
表 1 QLICD-GM各条目得分及不同位置点的信息量、平均信息量及条目筛选

在进行项目反应分析的29个条目中,躯体功能维度8个条目的平均信息量为0.351~0.426,均未达到0.47,均判定为差。心理功能维度11个条目的平均信息量均较高,其中2个条目分别为0.712、0.716,其他条目为0.744~0.909,表明11个条目均处于好或优的水平。社会功能维度10个条目中,有2个条目的平均信息量分别为0.448、0.453,未超过0.47;其他8个条目为0.526~0.644,处于较好水平。上述结果提示,心理功能11个条目和社会功能8个条目可直接进入QLICD第2版的共性模块。选择躯体功能维度平均信息量较高的4个条目(PH2、PH6、PH7、PH8)作为保留条目。

3 讨论

项目反应理论在心理与教育测量中广泛应用,具有样本自由性与结果准确性等优点[5, 6]。它是包含项目参数和被试参数的反应函数,不仅考虑了项目参数间关系,而且考虑了项目参数与被试能力间的关系,是一个关于项目质量的、包含难度和区分度等各方面作用的统一的综合指标,这是经典测量理论(classical test theory,CTT)所不具有的优越性[11, 12]。本研究采用(IRT)分析QLICD量表共性模块,以信息函数概念代替了信度概念,通过建立并比较被测试者对项目的反应与潜在特质之间的数量关系,获得各条目信息量,估计其可靠程度,为编制新版本QLICD量表筛选更为科学合理的条目。结果表明,29个测试条目对被测试者潜在特性的区分度均为1.2~1.9,表明各条目区分度均较好;难度取值范围为-3.05~2.18,表明QLICD量表共性模块各条目设置合理、难度合适。

项目反应理论应用的一个前提条件就是单维性检查,可采用因子分析来进行。按Hambleton的标准[13],若第1特征值与第2特征值之比>3,则认为符合单维性假设,可以进行IRT分析。本文若整个量表一起进行IRT分析则不满足单维性(第1特征值与第2特征值之比为7.74/2.88=2.69),为此,分别按生理功能、心理功能和社会功能3个维度进行IRT分析均可满足单维性。

对于条目的区分度与难度的取值大小尚无统一的标准,但有一些普遍采用的原则[8, 10]。一般来说如果ai<0.3,则认为题目的区分度过小,应在1~2为宜;bi>2.95或者bi<-2.95可以认为题目过难或过易。本文除1个条目SO5难度稍低(-3.05)外,其余均符合要求,其原因可能是大部分被调查者出现在一个等级(329/620),形成一定的"地板效应。

条目筛选结果提示,心理功能11个条目和社会功能8个条目可直接进入新版本QLICD量表共性模块。而躯体功能维度信息量均偏低,没有直接入选的条目。分析其原因,可能与这些条目各等级的回答人数比较居中,条目得分变异不大,因而测评信息量较小有关。为了保证共性模块各维度的完整性,在区分度适宜、条目分级较为合理的前提下,结合其项目特征曲线和信息函数曲线,选择其中平均信息量较高的4个条目,作为保留条目进入新版本QLICD量表共性模块。此外,第30个条目虽没有参加IRT分析,但经专家审评和预调查后,认为对慢性病患者的生活质量有影响,因此也予以保留。共选出24个条目进入QLICD第2版的共性模块。但项目反应理论对样本含量的要求较高,一般要求>1000例。本研究样本量还不够大,需进一步观察和分析。

参考文献
[1] 万崇华,杨铮,杨玉萍,等.慢性病患者生命质量测定量表体系共性模块的考评[J].中国行为医学科学,2007,16(6):559-561.
[2] 杨铮,李晓梅,万崇华,等.慢性阻塞性肺病患者生命质量测定量表QLICD-COPD的研制与考评[J].中国全科医学,2007,10 (13):1080-1083.
[3] 杨瑞雪,潘家华,万崇华,等.高血压患者生命质量量表研制及评价[J].中国公共卫生,2008,24(3):266-269.
[4] 高丽,万崇华,周曾芬,等.慢性病生命质量量表中慢性胃炎量表研制[J].中国公共卫生,2008,24(12):1447-1449.
[5] 漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].北京:高等教育出版社,2002:79-91.
[6] 顾海根.心理与教育测量[M].北京:北京大学出版社,2008: 110-134.
[7] Sébille V,Hardouin JB,Le Neel T,et al.Methodological issues regarding power of classical test theory(CTT)and item response theory(IRT)-based approaches for the comparison of patient-reported outcomes in two groups of patients-a simulation study[J].BMC Medical Research Methodology,2010,10(1): 1186-1191.
[8] 涂冬波,蔡艳.信息函数在标准参照测验中的应用研究[J]. 江西师范大学学报,2005,29(2):167-171.
[9] 傅德荣,章慧敏.教育信息处理[M].北京:高等教育出版社, 2001:122.
[10] 刘炳伦,郝伟,杨德森,等.网络依赖诊断量表初步编制[J]. 中国临床心理学杂志,2006,14(3):227-232.
[11] 杨静.三种教育与心理测量理论的比较研究[J].中国考试, 2006(6):33-35.
[12] 熊江玲.经典测量理论、概化理论及项目反映理论比较研究[J].求索,2004(4):99-100.
[13] Hamilton M.Development of a rating scale for primary depressive illness[J].Br J Soc Clin Psychol,1967,6(4):278-296.