国家教育部主管、北京师范大学主办。
文章信息
- 罗杰, 周瑗, 陈维, 潘运, 赵守盈. 2016.
- LUO Jie, ZHOU Yuan, CHEN Wei, PAN Yun, ZHAO Shouying. 2016.
- 大五人格测验在中国应用的信度概化分析
- A Reliability Generalization of the Big-Five Factor Personality Tests in China
- 心理发展与教育, 32(1): 121-128
- Acta Meteorologica Sinica, 32(1): 121-128.
- http://dx.doi.org/10.16187/j.cnki.issn1001-4918.2016.01.16
2. 贵州省普通高校基础心理与认知神经科学特色重点实验室, 贵阳 550001
2. Guizhou General Colleges Key Laboratory of Fundamental Psychology and Cognitive Neuroscience, Guiyang 550001
作为当前最具影响力的人格研究范式——“大五”人格模型,在过去60多年里得到心理学研究者广泛的研究,且被证明是具有跨语言和跨文化的一致性与稳定性,并且在人格维度层面得到了人格心理学家的认同与接受(McCrae & Costa,1989; McCrae & Terracciano,2005; John,Naumann,& Soto,2008),以该理论模型为依据编制的人格测验亦被越来越多的研究者所使用。目前用来测量大五人格特征的自陈测验主要有句子式、短语式和形容词式(John et al.,2008; 罗杰,戴晓阳,2011a),其中句子式以NEO-PI-R(Neuroticism Extraversion Openness Personality Inventory-Revised)和NEO-FFI(Neuroticism Extraversion Openness Five-Factor Inventory)为代表(Costa & McCrae,1992),短语式则以BFI(Big Five Inventory)为代表(John,Donahue,& Kentle,1991),形容词式则以TDA(Trait Descriptive Adjectives)为代表(Goldberg,1992)。上世纪90年代初有研究者(王登峰,1994; 杨坚,1997)将其介绍到国内,此后国内研究者对其进行积极研究,取得了相应的研究成果。然而当大五人格测验应用于不同被试群体时,其测验信度是否仍然稳定可靠?
经典测量理论(Classical Test Theory,CTT)中,信度是衡量测验质量的重要指标,体现了测验结果的稳定性与可靠性。如果测验信度估计不当,则直接影响基于信度基础上所做的统计分析(Lachin,2004)。测验信度的估计主要通过信度系数(如α系数)进行,信度系数的估计则依赖于样本特征,随研究样本与测验条件等变化而变化。故测验信度的跨样本使用应以样本构成与分数变异性相似为前提(Vacha-Haase,1998; Thompson & Vacha-Haase,2000; 焦璨,吴利,张敏强,张文怡,2009)。当编制或修订心理测验时,研究者们都会检验其信效度,但具体应用测验工具进行调查时,实际做法却不尽相同。其中一部分人认为通过常模或某地域样本获得的较高信度,在其他研究中自然而然也会得到较好结果。其通常做法就是直接引用测验手册或以往研究结果作为其当前研究中的测验信度。心理测量学将这种现象称为“信度引入”(Vacha-Haase,1998; Thompson & Vacha-Haase,2000; Vacha-Haase,Kogan,& Thompson,2000; 关丹丹,张厚粲,2004;焦璨等,2009)。有研究者(Thompson & Vacha-Haase,2000; Vacha-Haase,Henson,& Caruso,2002; Shields,Howell,Potter,& Weiss,2007)认为信度引入包括两种情况:(1)在研究中未提及任何测验信度;(2)将测验手册或以往研究结果作为当前研究中的测验信度。针对信度系数的变异性问题,Vacha-Haase(1998)首次提出“信度概化”这一概念来纠正和处理心理测验使用中的信度引入问题。
信度概化(Reliability Generalization,RG),是基于概化理论对信度系数的元分析方法。通过信度概化能够对某个测验工具信度系数的使用进行综合分析,探讨影响该测验工具信度系数的相关因素(Vacha-Haase,1998; Vacha-Haase et al.,2000;Vacha-Haase et al.,2002)。RG将已有研究的信度系数作为研究对象,采用统计方法考究信度系数的影响因素,并指出在测验使用时应注意的问题,这对科学规范的应用心理测验具有重要意义(Vacha-Haase,1998; Thompson & Vacha-Haase,2000; Vacha-Haase et al.,2000; Vacha-Haase et al.,2002; Shields et al.,2007; 关丹丹等,2004; 焦璨等,2009)。Vacha-Haase(1998)研究发现男性角色量表比女性角色量表的信度变异小、样本或工具特征能预测BSRI(Bem Sex Role Inventory)的信度;Caruso(2000)研究发现施测语言、男性比例等影响NEO的信度;Vaeha-Haase等(2001)研究发现测验版本和被试年龄对MMPI(Minnesota Multiphasic Personality Inventory)的信度存在影响;Caruso和Edwards(2001)运用信度概化对J-EPQ(Junior Eysenck Personality Questionnaire)进行分析,结果发现项目数、测验版本等能预测J-EPQ的信度;Shields等(2007)对MAST(Michigan Alcoholism Screening Test)进行信度概化分析,结果发现项目数、样本类型等对MAST的信度存在影响;Botella等(2010)研究发现测验版本、被试类型影响STAI(State-Trait Anxiety Inventory)的信度;Wheeler等(2011)对MBI(Maslach Burnout Inventory)进行分析,结果发现量表分数标准差,和测验语言能够预测MBI的信度;国内学者(焦璨,张洁婷,吴利,张敏强,2010; 焦璨,张敏强,张洁婷,吴利,张文怡,2011; 罗杰,赵守盈,潘运,戴晓阳,2013; 黎红艳,徐建平,陈基越,范业鑫,2015)分别使用信度概化对MMPI、EPQ、ATMD(Adolescence Time Management Disposition Inventory)和BFI的信度系数进行分析。以上研究表明,样本特征(如样本量、被试类型和男女比例等)对测验工具的信度系数存在影响。信度概化是一种对信度系数变异进行描述与探索的有力工具,通过RG可纠正研究者们只重视控制量表编制和修订过程中的误差,而忽略施测过程中因样本特征等产生的随机误差。
鉴于此,本文试图对过去20年(1994~2013年)间国内有关大五人格测验的文献进行信度概化分析,以获取在国内使用的客观结果并作出判断,进而为国内研究者更规范有效地应用大五人格测验提供参考,同时以期进一步推进大五人格测验在中国的应用与发展。
2 方法2.1 研究工具2.1.1 句子式大五人格测验主要以NEO(NEO-PI-R和NEO-FFI)为代表(Costa & McCrae,1992),其中NEO-PI-R包括5个人格维度和30个特质分量表,每个特质分量表均为8个条目,共240个条目,每个条目采用0~4的五级评分法,从“最不赞同”到“非常赞同”。NEO-PI-R中文修订本由杨坚等人完成(Yang et al.,1999),在16~20岁和21~88岁人群中均有较好的信效度(戴晓阳,姚树桥,蔡太生,杨坚,2004; 戴晓阳,吴依泉,2005)。NEO-FFI是NEO-PI-R的简化版,共60个条目,主要测量N、E、O、A和C五个人格维度,每个维度12个条目,采取5点评分,从“非常不同意”到“非常同意”分别记为4、3、2、1、0。
2.1.2 短语式大五人格测验主要以BFI为代表(John et al.,1991),BFI由44个描述人格特质的短语组成,主要测量E、A、C、N和O五个维度,每个维度的条目数分别为8、9、9、8和10,采用5点记分,1代表非常不同意,5代表非常同意。Rammstedt和John(2007)从BFI中挑选出10个条目组成BFI的简版,且有着不错的信度结果。
2.1.3 形容词式大五人格测验主要以TDA为代表(Goldberg,1992),包括50-BAS(50 bipolar adjective scales)和100-TDA(100 unipolar trait descriptive adjectives)。其中50-BAS由50对双极词构成,主要测量E、A、C、N和O五个人格维度,每个维度均为10个条目,采用9点记分。100-TDA则由100个单极词构成,每个维度包含20个条目,采用9点记分,1代表非常不符合,9代表非常符合。Saucier(1994)从100-TDA中挑选出40个条目组成TDA的简式版(40-item mini-marker version)来测量大五人格特征。
2.2 文献检索2.2.1 文献检索标准参照以往信度概化(Vacha-Haase,1998; Shields et al.,2007)文献筛选的原则和程序,结合实际情况,制定如下筛选标准:(1)研究文献仅涉及大五人格测验的应用,对编制或修订的文献不予采用;(2)对综述性文献以及将大五人格测验作为效标,挑选被试标准的文献不予采用;(3)相同作者,同一批数据重复发表则选择其中一篇为准。
2.2.2 文献检索结果在中国期刊网(CNKI)、维普资讯及万方数据的中文期刊全文数据库、优秀硕博论文库中分别以“大五人格”、“大五人格测验”等为题名、关键词和中文摘要的主题词搜索,必要时还检索全文中包含“人格特质”或“人格”的文献,并筛选从1994~2013年的文献。按照上述标准,最后保留下380篇文献。
2.3 预测变量参考以往研究(Shields et al.,2007; 焦璨等,2011),并结合所检索的文献中报告的人口学变量信息,选取以下预测变量:测验版本、测验类型、测验记分、量表来源、项目数、男女比例、样本类型、样本量、文章级别类型、文章专业类型、东西地域差异、南北地域差异、平均年龄、年龄标准差以及各分量表分数的均值和标准差等。其中测验版本(1=完整版、0=简式版)、测验类型(0=句子、1=短语、2=形容词)、量表来源(0=国外编制、1=国内自编)、样本类型(1=学生、0=非学生)、文章级别类型(0=核心刊物;1=一般刊物;2=学位论文)、文章专业类型(1=心理学、0=非心理学)、东西地域差异(1=东部,0=中西部)、南北地域差异(1=南方、0=北方)为类别变量,对其进行虚拟编码。
2.4 因变量信度概化主要使用线性模型来确定预测变量与因变量的关系,线性模型中因变量服从正态分布这一前提条件非常重要。有研究者(Hakstian & Whalen,1976)证明α系数不服从正态分布,需进行变量转换以使其服从正态分布。本文分析时将α系数转换为T分数以使其正态化(Hakstian & Whalen,1976; Rodriguez & Maeda,2006),故本文中的因变量为转换后的T分数。
2.5 统计处理与分析主要采用EXCEL 2007和SPSS16.0对数据进行统计分析。首先将α系数转换为T分数以使其正态化(Hakstian & Whalen,1976; Rodriguez & Maeda,2006);其次使用Q检验(Hedges & Olkin,1985)和I2指标(Higgins & Thompson,2002)进行同质性检验,以选择合适的分析模型;接着采用未加权估计以及α系数效果量方法,对大五人格测验的α系数进行综合评估;最后运用回归分析考察大五人格测验α系数的影响因素。
3 结果3.1 信度引入分析根据Vacha-Haase等人(2000,2002)的观点,信度引入分为省略式和报告式两种。本文中前者文献数为188篇(49.47%);后者文献数为71篇(18.68%),两者总计达到259篇(68.15%);而报告当前研究中的信度系数或范围的文献数是121篇(31.85%)。RG是将已有研究的信度系数作为研究对象,应用统计方法对其进行再分析(Vacha-Haase,1998)。本文最终可用于信度概化分析的样本量分别为nN=112,nE=114,nO=109,nA=106和nC=111。
3.2 信度概化分析3.2.1 大五人格测验的α系数及其变异在未加权估计中,A和O的均值最低(MA=MO=0.73),N和C的均值最高(MN=MC=0.77)。Viswesvaran和Ones(2000)对大五人格测验在国外应用进行了分析(见表 1)。
| 本研究的结果 | Viswesvaran & Ones的结果 | |||||||
| 维度 | M | Mdn | SD | Range | Kr | M | SD | Kr |
| N | 0.77 | 0.79 | 0.09 | 0.51~0.95 | 112 | 0.78 | 0.11 | 370 |
| E | 0.75 | 0.75 | 0.09 | 0.54~0.92 | 114 | 0.78 | 0.09 | 307 |
| O | 0.73 | 0.72 | 0.10 | 0.46~0.93 | 109 | 0.73 | 0.12 | 251 |
| A | 0.73 | 0.73 | 0.10 | 0.50~0.92 | 106 | 0.75 | 0.11 | 123 |
| C | 0.77 | 0.77 | 0.08 | 0.52~0.94 | 111 | 0.78 | 0.10 | 307 |
| 注:Kr为信度概化分析的样本量。 | ||||||||
表 1显示,无论国内还是国外,MO均最低,MN和MC均最高;国内的结果均略低于国外(O除外),但后者的变异性略大(E除外)。
本文主要针对大五人格测验的α系数进行信度概化分析,Feldt和Brennan(1989)提出α系数与相关系数的样本分布情况不同,不能简单地将分析相关系数的方法用于α系数的整合研究,故采用α系数效果量方法(Rodriguez & Maeda,2006)(见表 2~3)。
| 维度 | 对象 | Kr | 合并方差Vα | 合并平均 ![]() | Q |
| N | T | 112 | 1.38×10-6 | 0.56 | 4253.66 |
| E | T | 114 | 1.82×10-6 | 0.61 | 2833.51 |
| O | T | 109 | 1.79×10-6 | 0.63 | 3680.91 |
| A | T | 106 | 2.20×10-6 | 0.64 | 2642.99 |
| C | T | 111 | 1.72×10-6 | 0.59 | 2711.41 |
表 2同质性检验统计量Q显示,拒绝各量表α系数效果量是同质的原假设(p<0.001),同时各分量表的I2值分别是97.39%、96.01%、97.07%、96.03%和95.94%,均大于75%,说明存在较高异质性问题,故最终采用随机效应模型进行α系数的估计(见表 3)。
| 维度 | 对象 | Kr | 合并方差v* | 加权平均 ![]() | 还原后的α系数估计值 | 95% 置信区间 | ||
| 下限 | 上限 | |||||||
| N | T | 112 | 5.58×10-5 | 0.60 | 0.79 | 0.77 | 0.80 | |
| E | T | 114 | 4.82×10-5 | 0.62 | 0.76 | 0.75 | 0.78 | |
| O | T | 109 | 6.41×10-5 | 0.64 | 0.74 | 0.72 | 0.76 | |
| A | T | 106 | 5.82×10-5 | 0.64 | 0.74 | 0.72 | 0.76 | |
| C | T | 111 | 4.49×10-5 | 0.60 | 0.78 | 0.77 | 0.80 | |
表 3显示,在随机效应模型中,N的估计值最高(0.79),O和A的估计值最低(0.74)。
3.2.2 多元回归分析以测验版本等为预测变量,转换后的T分数为因变量进行多元回归分析(见表 4)。
| 维度 | 变量 | R2 | △R2 | B | SE | β | t | p | △F |
| N | N平均分 | 0.120 | 0.120 | 0.042 | 0.016 | 0.343 | 2.674 | 0.010 | 6.263 |
| 量表来源 | 0.203 | 0.083 | 0.083 | 0.029 | 0.379 | 2.858 | 0.006 | 4.701 | |
| 南北地域差异 | 0.295 | 0.092 | -0.055 | 0.023 | -0.320 | -2.398 | 0.021 | 5.750 | |
| E | 量表来源 | 0.051 | 0.051 | 0.060 | 0.018 | 0.291 | 3.286 | 0.001 | 6.032 |
| 文章专业类型 | 0.099 | 0.048 | 0.044 | 0.016 | 0.239 | 2.700 | 0.008 | 5.898 | |
| 测验版本 | 0.138 | 0.039 | -0.081 | 0.033 | -0.214 | -2.425 | 0.017 | 4.916 | |
| 测验记分 | 0.172 | 0.035 | -0.011 | 0.005 | -0.188 | -2.141 | 0.035 | 4.582 | |
| O | 样本量 | 0.473 | 0.473 | <0.001 | <0.001 | 0.498 | 3.903 | 0.001 | 15.244 |
| 文章专业类型 | 0.659 | 0.186 | 0.083 | 0.024 | 0.437 | 3.499 | 0.003 | 8.744 | |
| 量表来源 | 0.782 | 0.123 | 0.092 | 0.032 | 0.359 | 2.904 | 0.011 | 8.435 | |
| A | 量表来源 | 0.137 | 0.137 | 0.083 | 0.019 | 0.365 | 4.422 | <0.001 | 16.579 |
| 文章专业类型 | 0.274 | 0.137 | 0.084 | 0.016 | 0.439 | 5.400 | <0.001 | 19.415 | |
| A的项目数 | 0.333 | 0.059 | -0.003 | 0.001 | -0.275 | -3.393 | 0.001 | 9.037 | |
| 样本类型 | 0.371 | 0.037 | 0.071 | 0.029 | 0.204 | 2.446 | 0.016 | 5.984 | |
| C | 量表来源 | 0.057 | 0.057 | 0.058 | 0.019 | 0.264 | 2.993 | 0.003 | 6.548 |
| C的项目数 | 0.096 | 0.039 | -0.002 | 0.001 | -0.272 | -2.994 | 0.003 | 4.646 | |
| 文章专业类型 | 0.144 | 0.048 | 0.039 | 0.016 | 0.220 | 2.452 | 0.016 | 6.013 | |
| 测验记分 | 0.179 | 0.036 | -0.012 | 0.005 | -0.192 | -2.146 | 0.034 | 4.606 | |
| 注:R2为决定系数,B为未标准化的回归系数,SE为标准误,β为标准化的回归系数。 | |||||||||
表 4显示,对于N来说,分数均值、量表来源和南北地域差异是其信度的预测变量,其中南北地域是负向预测作用,其余变量均为正向预测作用;而量表来源、文章专业类型、测验版本和测验记分对E的信度存在预测作用,其中量表来源和文章专业类型为正向预测作用,而其余两个均是负向预测作用;对于O而言,样本量、文章专业类型和量表来源是其信度的预测变量,且均为正向预测作用;而量表来源、文章专业类型、项目数和样本类型对A的信度存在预测作用,除项目数外,其余均为正向预测作用;对于C来说,量表来源、项目数、文章专业类型和测验记分对其信度存在预测作用,其中项目数和测验记分为负向预测作用,而其余均为正向预测作用。
4 讨论本文基于概化理论对过去20年国内有关大五人格测验的文献进行信度概化分析。结果发现,检索到的文献中约68.15%存在“信度引入”的现象,表现在直接引用前人的信度结果(18.68%),或者不报告自己研究中的测验信度(49.47%)。这主要是一部分研究者对于“信度系数究竟是测验结果的属性还是测验工具的属性?”这一问题未清楚认识所致(Vacha-Haase,1998; Caruso & Edwards,2001; 焦璨等,2011)。他们认为通过常模或某地域样本获得的较高信度,在其他研究中自然而然也会得到较好结果,于是在研究中将测验手册或其他研究者的结果默认为自己的结果而直接加以“引人”。实际上这是对测验信度的一种误读即认为“信度是测验工具的属性”。心理测量中信度不是测验工具的属性,而是测验结果的属性,将同一测验工具应用于不同被试群体,因研究样本和施测情境等变化,其信度自然也会有所不同(Vacha-Haase,1998; Thompson & Vacha-Haase,2000)。The APA Task Force on Statistical Inference(TFSI)曾建议“即使研究不是以心理测量学为核心,分析数据时也要提供所分析数据的信度系数”(Wilkinson,1999)。因此,只要是应用测验工具,其使用者就应当报告当前研究中的测验信度。
另外约31.85%的文献报告了当前研究中的测验信度或结果范围,这类文献可用于信度系数的概化分析。结果显示各维度α系数的均值(未加权)介于0.73~0.77之间,标准差在0.08~0.10之间,这表明各维度的测验信度存在变异性,将大五人格测验应用于不同样本得到的测验信度存在不同即随着研究样本或施测情境的变化,所得的测验信度亦有所不同。将本文与Viswesvaran等(2000)的研究进行比较,发现国内所得结果均略低于国外(除O外),而后者的变异性略大(E除外),这表明大五人格测验在国外施测有可能受到更多的变异源影响。采用α系数效果量方法(Rodriguez & Maeda,2006)对各维度的α系数进行评估,结果显示在随机效应模型中,N的估计值(95% CI)是0.79(0.77,0.80)最高,而O和A的估计值(95% CI)均为0.74(0.72,0.76)最低。
回归分析表明,量表来源和测验记分等对各维度的测验信度存在不同程度影响。其中量表来源对各维度的测验信度均存在预测作用。使用国外编制测验与国内自编测验所得结果存在差异,且国内结果均高于国外。这说明直接将国外测验应用到国内其测量学性能会有所下降,且会导致所谓强加的一致性(imposed etic)即使用某种文化下所建立的构念和工具去评估另一种文化背景下的个体,然后比较不同文化是不是有相似的特点(Berry,1989)。相应地,探讨中国人人格特征也不能直接搬用西方人格测量工具,应用西方人格测量工具只能测出中国人对其所包含内容的反应,而不能测出中国人人格所真实包含的内容(黄希庭,2004)。国外评鉴方法和手段可以借鉴,但不能简单套用,必须结合国情编制和修订适合于本国实际的测评工具。通过这样的实践,有利于形成本国人格评鉴的方法和工具,促进人格理论的发展与完善(黄希庭,范蔚,2001)。目前大五人格测验在国内存在三个自编版本:(1)青少年人格五因素问卷(周晖,钮丽丽,邹泓,2000);(2)中国大五人格问卷(王孟成,戴晓阳,姚树桥,2010);(3)中文形容词大五人格量表(罗杰,戴晓阳,2015b)。推进心理学研究的中国化,真正研究中国人的心理与行为问题,就需要突破西方心理学的框架,转变研究观念,用中国人的视野和思路来研究中国人的人格和社会行为问题(黄希庭,2004)。
文章专业类型对各维度(N除外)的测验信度具有预测作用。来自心理学与非心理学专业期刊上所报告的信度结果存在差异,这表明不同专业研究人员在使用大五人格测验从事研究工作,根据自身专业领域的要求以及各专业间的差异,尽管使用同一测验工具,但研究对象或样本特征的不同,各自所得到信度也不同。如心理学专业的研究对象往往以学生群体为主,通过人格测验了解学生的人格与社会行为,探讨其人格特征与其它变量间的关系;而管理学专业的研究对象是各种职业人群,通过人格测验探究不同职业人群的人格特点与社会行为;医学专业的研究对象则是各种身心疾病患者。因此,无论学科专业如何,在应用测验工具进行调查时,使用者一定要严格遵循测验手册或施测要求严格地对测评对象进行评估,以减少因测试者本身以及施测过程中所产生的各种误差而导致测量结果的有偏。
测验记分对E和C的测验信度存在预测作用。这说明选择测验工具时研究者们也应当留意不同测验记分方式所引起的信度差异。社会与行为科学领域中,测验工具的记分方式主要包括0-1记分和李克特多级记分。前者主要指EPQ、MMPI等较早开发的人格量表,而大五人格测验主要采用5点、6点、7点和9点记分。如NEO-PI-R及其修订本和BFI均采用5点记分;中国大五人格问卷(王孟成等,2010)和中文形容词大五人格量表(罗杰等,2015b)采用6点记分;23BB5(23 Bipolar Big Five Questionnaire)(Duijsens & Diekstra,1995)和BFQ(Big Five Questionnaire)(Caprara,Barbaranelli,Borgogni,& Perugini,1993)则采用7点记分;而50-BRS和100-TDA采用9点记分。尽管目前对人格测验中记分方式的效应尚存在争议(Chang,1994; Adelson & McCoach,2010),但有一点毋庸置疑,即不同的条目呈现方式和记分方式对人格测验的测量学性能存在明显影响。应用人格测验进行人格和社会行为研究时,针对不同的测验记分方式,测验使用者应结合研究目的和条件,尽可能选择最合适的测验工具,则可到达事半功倍的效果。
项目数是A和C测验信度的预测源,CTT中项目数的多少对测验信度存在明显影响。测验编制者在建构或开发心理测验时,当某个维度或因子的测验信度不够理想时,除了对不理想的项目进行措辞表述的修改外,也可适当增加该维度的项目数来提高测验信度。心理测验中根据项目数的多寡一般将测验分为完整版和简式版。前者能够收集到全面丰富的信息,但较多的项目亦会花费被试更多的时间与精力,以致产生疲劳和厌烦,进而增加测量误差(Burisch,1984; John et al.,2008; Credé,Harms,Niehorster,& Gaye-Valentine,2012)。故很多流行的人格测验都有相应的简式版本。前者如NEO-PI-R原版及修订本、CBF-PI(Chinese Big Five Personality Inventory)、100-TDA以及BFI-44等,后者如NEO-FFI、CBF-PI-B(Chinese Big Five Personality Inventory Brief Version)、40-TDA、BFI-10等。选用何种问卷应以研究目的而定,如果目的仅是对情况的一般了解而非追求全面细致,同时失真的代价较小或不存在时则适宜用简版问卷;如果目的是追求精确且失真的代价很大时采用完整版问卷更好。
另外,分数均值和南北地域差异对N维度信度存在预测作用,这表明抽样调查时要清楚被测样本的人口学信息,报告结果时应尽量将相关结果展示出来,以便其他研究者进行重复验证。测验版本对E维度信度具有预测作用,这表明在实施调查时选择何种版本的测验工具,要以实际目的而定,在实际研究中权衡利弊以达到最佳效果。样本量是O维度信度的预测变量,样本类型对A维度信度具有预测作用,这表明将大五人格测验应用于某一被试群体时,应密切关注被试构成与选取,样本大小要有代表性,样本类型和样本大小应取决于研究目的、研究准确性以及总体同质性等方面。而对于没有进入回归方程的其他变量,这亦说明各人格维度在这些变量条件下均表现出相对稳定的测验信度。
对大五人格测验进行信度概化分析时,研究者还“意外”发现有71篇文献报告了全量表的α系数,有21篇报告了全量表的分半信度。如果测验工具是多维的,并且各个维度的分数可以相加计算量表总分且测验总分是有意义的,报告全量表的α系数是可行的。反之,尽管测验工具是多维的,但不能将各个维度的分数直接相加求和,则不能考虑全量表的信度,而只能考虑各个维度的测验信度(温忠麟,叶宝娟,2011)。依据“大五”人格理论假设,五个人格维度彼此之间是相互独立的。报告大五人格测验全量表的α系数和分半信度这种做法有欠稳妥,没有任何实际意义,应当引起测验使用者的积极关注。
5 结论(1)国内研究者使用大五人格测验时存在明显的“信度引入”问题,约68.15%的文献没有报告当前研究中的测验信度。
(2)无论国内还是国外,O的均值最低,N和C的均值最高,且国内所得结果均略低于国外(除O外),而后者的变异性略大(E除外);α系数效果量法,在随机效应模型中,N的估计值最高,O和A的估计值最低。
(3)分数均值、量表来源和南北地域差异是N维度信度的预测源;量表来源、文章专业类型、测验版本和测验记分对E维度信度具有预测作用;而样本量、文章专业类型和量表来源是O维度信度的预测变量;量表来源、文章专业类型、项目数和样本类型对A维度信度具有预测作用;量表来源、项目数、文章专业类型和测验记分则是C维度信度的预测变量。
| Adelson, J. L., & McCoach, D. B. (2010). Measuring the mathematical attitudes of elementary students:The effects of a four-point or five-point likert-type scale. Educational and Psychological Measurement, 70(5), 796-807. |
| Berry, J. W. (1989). Imposed etics emics derived etics:the operationalization of a compelling idea. International Journal of Psychology, 24(6), 721-735. |
| Botella, J., Suero, M., & Gambara, H. (2010). Psychometric inferences from a meta-analysis of reliability and internal consistency coefficients. Psychological Methods, 15(4), 386-397. |
| Burisch, M. (1984). You don't always get what you pay for:Measuring depression with short and simple versus long and sophisticated scales. Journal of Research in Personality, 18(1), 81-98. |
| Caprara, G. V., Barbaranelli, C., Borgogni, L., & Perugini, M. (1993). The big five questionnaire:a new questionnaire to assess the five factor model. Personality and Individual Differences, 15(3), 281-288. |
| Caruso, J. C. (2000). Reliability generalization of the NEO personality scales. Educational and Psychological Measurement, 60(2), 236-254. |
| Caruso, J. C., & Edwards, S. (2001). Reliability generalization of the Junior Eysenck Personality Questionnaire. Personality and Individual Differences, 31(2), 173-184. |
| Chang, L. (1994). A Psychometric evaluation of four-point and six-point likert-type scales in relation to reliability and validity. Applied Psychological Measurement, 18(3), 205-215. |
| Costa, P. T., Jr., & McCrae, R.R. (1992). NEO-PI-R professional manual. Odessa, FL:Psychological Assessment Resources. Inc. |
| Credé, M., Harms, P., Niehorster, S., & Gaye-Valentine, A. (2012). An evaluation of the consequences of using short measures of the Big Five personality traits. Journal of Personality and Social Psychology, 102(4), 874-888. |
| Duijsens, I. J., & Diekstra, R. W. (1995). The 23BB5:a new bipolar Big Five questionnaire. Personality and Individual Differences, 19(5), 753-755. |
| Feldt, L. S., & Brennan, R. L. (1989). Reliability. In Linn, R. L. (Ed.), Educational measurement (3rd ed., pp. 105-146). New York:American Council on Education and Macmillan. |
| Goldberg, L. R. (1992). The development of markers for the Big-Five factor structure. Psychological Assessment, 4(1), 26-42. |
| Hakstian, A. R., & Whalen, T. E. (1976). A k-sample significance test for independent alpha coefficients. Psychometrika, 41(2), 219-231. |
| Hedges, L.V. & Olkin, I. (1985). Statistical methods for meta-analysis. Orlando, FL:Academic Press. |
| Higgins, J.P.T. & Thompson, S.G. (2002). Quantifying heterogeneity in a meta-analysis. Statistics in Medicine, 21(11), 1539-1558. |
| John, O. P., Donahue, E. M., & Kentle, R. L. (1991). The Big Five Inventory-Versions 4a and 54. Berkeley:University of California at Berkeley, Institute of Personality and Social Research. |
| John, O. P., Naumann, L. R., & Soto, C. J. (2008). Paradigm shift to the integrative Big Five trait taxonomy:History, measurement, and conceptual issues. In John, O. P., Robins, R. W., & Pervin, L. A. Handbook of Personality:Theory and Research (3th). New York:The Guilford Press, 114-158. |
| Lachin, J. M. (2004). The role of measurement reliability in clinical trials. Clinical Trials, 1(6), 553-566. |
| McCrae, R. R., & Costa, P. T., Jr. (1989). More reasons to adopt the five-factor model. American Psychologist,44(2), 451-452. |
| McCrae, R. R., & Terracciano, A. (2005). 78 members of the personality profiles. Universal features of personality traits from the observer's perspective:Data from 50 cultures. Journal of Personality and Social Psychology, 88(3), 547-561. |
| Rammstedt, B., & John, O. P. (2007). Measuring personality in one minute or less:A 10-item short version of the big five inventory in English and German. Journal of Research in Personality, 41(1), 203-212. |
| Rodriguez, M. C., & Maeda, Y. (2006). Meta-analysis of coefficient alpha. Psychological Methods, 11(3), 306-322. |
| Saucier, G. (1994). Mini-markers:a brief version of Goldberg's unipolar Big-Five markers. Journal of Personality Assessment, 63(3), 506-516. |
| Shields, A. L., Howell, R. T., Potter, J. S., & Weiss, R. D. (2007). The michigan alcoholism screening test and its shortened form:a meta-analytic inquiry into score reliability. Substance Use and Misuse, 42(11), 1783-1800. |
| Thompson, B., & Vacha-Haase, T. (2000). Psychometrics is datametrics:the test is not reliable. Educational and Psychological Measurement, 60(2):174-195. |
| Vacha-Haase, T. (1998). Reliability generalization:exploring variance in measurement error affecting score reliability across studies. Educational and Psychological Measurement, 58(1), 6-20. |
| Vacha-Haase, T., Henson, R., & Caruso, J. C. (2002). Reliability generalization:moving toward improved understanding and use of score reliability. Educational and Psychological Measurement, 62(4), 562-569. |
| Vacha-Haase, T., Kogan, L. R., Tani, C. R., & Woodall, R. A. (2001). Reliability generalization:exploring variation of reliability coefficients of MMPI clinical scales scores. Educational and Psychological Measurement, 61(1), 45-59. |
| Vacha-Haase, T., Kogan, L. R., & Thompson, B. (2000). Sample compositions and variabilities in published studies versus those in test manuals:validity of score reliability inductions. Educational and Psychological Measurement, 60(4), 509-522. |
| Viswesvaran, C., & Ones, D. S. (2000). Measurement error in "Big Five Factors" personality assessment:reliability generalization across studies and measures. Educational and Psychological Measurement, 60(2), 224-235. |
| Wheeler, D. L., Vassar, M., Worley, J. A., & Barnes, L. L. B. (2011). A reliability generalization meta-analysis of coefficient alpha for the maslach burnout inventory. Educational and Psychological Measurement, 71(1), 231-244. |
| Wilkinson, L. (1999). The American Psychological Association (APA) Task Force on Statistical Inference. Statistical methods in psychology journals:Guidelines and explanations. Educational and Psychological Measurement, 54(8), 594-604. |
| Yang, J., McCrae, R. R., Costa, P. T. Jr., Dai, X. Y., Yao, S. Q., Cai, T. S., & Gao, B. L. (1999). Cross-Cultural Personality Assessment in Psychiatric Populations:The NEO-PI-R in the People's Republic of China. Psychological Assessment, 11(3), 359-368. |
| 戴晓阳, 吴依泉. (2005). NEO-PI-R在16-20岁人群中的应用研究. 中国临床心理学杂志, 13(1), 14-18. |
| 戴晓阳, 姚树桥, 蔡太生, 杨坚. (2004). NEO个性问卷修订本在中国的应用研究. 中国心理卫生杂志, 18(3), 170-174. |
| 关丹丹, 张厚粲. (2004). 信度的再认识与信度概括化研究. 心理科学, 27(2), 445-448. |
| 黄希庭, 范蔚. (2001). 人格研究中国化之思考. 西南师范大学学报(人文社会科学版), 27(6), 45-50. |
| 黄希庭. (2004). 再谈人格研究的中国化. 西南师范大学学报(人文社会科学版), 30(6), 5-9. |
| 焦璨, 吴利, 张敏强, 张文怡. (2009). 信度概化研究的新进展评析. 学术研究, 40(2), 54-59. |
| 焦璨, 张洁婷, 吴利, 张敏强. (2010). MMPI在中国应用的信度概化研究. 华南师范大学学报(社会科学版), 36(4), 48-52. |
| 焦璨, 张敏强, 张洁婷, 吴利, 张文怡. (2011). EPQ信度概化的跨文化比较及其启示. 心理科学, 34(6), 1488-1495. |
| 黎红艳, 徐建平, 陈基越, 范业鑫. (2015). 大五人格问卷(BFI-44)信度元分析——基于信度概化方法. 心理科学进展, 23(5), 755-765. |
| 罗杰, 戴晓阳. (2011a). "大五"人格测验在我国使用情况的元分析. 中国临床心理学杂志, 19(6), 740-742. |
| 罗杰, 戴晓阳. (2015b). 中文形容词大五人格量表的初步编制Ⅰ:理论框架与测验信度. 中国临床心理学杂志, 23(3), 381-385. |
| 罗杰, 赵守盈, 潘运, 戴晓阳. (2013). 青少年时间管理倾向量表的信度概化分析. 中国心理卫生杂志, 27(4), 305-309. |
| 王登峰. (1994). 人格特质研究的大五因素分类. 心理学动态, 2(1), 34-41. |
| 王孟成, 戴晓阳, 姚树桥. (2010). 中国大五人格问卷的初步编制Ⅰ:理论框架与信度分析. 中国临床心理学杂志, 18(5), 545-548. |
| 温忠麟, 叶宝娟. (2011). 测验信度估计:从α系数到内部一致性信度. 心理学报, 43(7), 821-829. |
| 杨坚. (1997). 个性结构研究中的五因素模式. 中国临床心理学杂志, 5(1), 56-60. |
| 周晖, 钮丽丽, 邹泓. (2000). 中学生人格五因素问卷的编制. 心理发展与教育, 16(1), 48-54. |
2016, Vol. 32



