国家教育部主管、北京师范大学主办。
文章信息
- 黎光明, 张敏强. 2017.
- LI Guangming, ZHANG Minqiang. 2017.
- 高校教师教学水平评价多元概化理论权重效应分析
- Weight Effect Analysis of Multivariate Generalizability Theory for Teaching Level Evaluation of College Teachers
- 心理发展与教育, 33(1): 122-128
- Psychological Development and Education, 33(1): 122-128.
- http://dx.doi.org/10.16187/j.cnki.issn1001-4918.2017.01.14
高校教师教学水平评价是高校对有关教师做出个人评定的重要基础,也是高校教师晋升的重要依据。学生成为考评主体的教学评价模式被诸多学校采用,并取得了良好的效果 (Crooks & Kane, 1981; Meyer, Liu, & Mashburn, 2014)。通常地,高校将教师教学水平评价问卷分派到教师所教授的班级,由学生在若干个指标维度上对教师教学水平进行评价,并求取评价均分表示高校教师的教学水平,这种做法仅考虑了题目这个影响因素,却忽略了很多其它影响评价的因素。例如,每一门课程的学生人数不同,过少的学生数量会影响评价结果的可靠性和有效性;不同专业类别的学生在评价教师教学水平时各有侧重;学生在学期初更专注于课业,在学期末更专注于考试,对教师的评价会随时间发生变化。Shin和Raudenbush (2012)在概化理论的框架下,讨论了班级数量、评价者数量、题目数量对教学评价结果的影响。也有学者运用概化理论,探讨评价时间和评价方式对教学水平评价结果的影响 (Casabianca, Lockwood, & McCaffrey, 2015)。
对高校教师教学水平进行评价其指标维度是多方面的,如教学态度、教学方法、教学内容和教学效果等。对于这些指标维度的赋值,大多数高校都是依据经验直接给定。例如,在高校教师教学水平评价的维度中,规定教学态度、教学内容、教学方法和教学效果的维度权重分别为1:1:1:1。这样做,缺乏论证依据,因为人们尚不知道是相等权重好,还是不等权重好?其据理何在,大多数高校往往不作定量探讨。
高校对教师进行教学水平评价的上述做法存在以下两个问题:其一,在每个维度上仅考虑了题目这个影响因素,却忽略了很多其它评价影响因素,如评价时间、课程类别等;其二,缺乏考虑维度之间的测量误差,维度权重往往作静态处理,一般皆视维度为等权或根据人为经验进行赋权,缺乏动态赋权。多元概化理论 (Multivariate Generalizability Theory, MGT) 可以解决高校教师教学水平分数合成的上述两方面问题,相比于经典测量理论和单变量概化理论,其优势如下:一是可以一并考虑高校教师教学水平评价的多个因素,且不限制于交叉设计,如研究设计中可以存在多元的嵌套关系或混合设计;二是可以用求特征根的方法得出高校教师教学水平评价最优概化系数及相应的特征矢量,并把它们视为各测评变量的权重;三是当高校教师教学水平评价侧面之间的相关比较低时,可以考虑用权重削弱不太有用的评分因素对合成可靠性的影响。
对于高校教师教学水平评价,多元概化理论所表现出的优势是建立在能同时处理多个测量目标基础之上的,这是单变量概化理论所不可比拟的。因为高校教师教学水平评价存在多个测量目标,如教学态度、教学内容、教学方法和教学效果等,所以概化理论不得不既分别分析各个测量目标的信息,又不得不将各个测量目标的分数进行合成,给出一个更为综合的信息或指标。但是,分数合成不能过分简化,不能直接求取评价均分或仅是对分数进行简单相加来表示高校教师的教学水平,需要考虑协方差信息以及测量目标的维度权重,且必须有可靠性保障。如果合成的可靠性过低,那么所合成的分数就不能令人信服。因此,多元概化理论需要考察其合成信度。
多元概化理论的合成信度,包括合成的概化系数和合成的可靠性指数,都依赖于各个测量目标的权重,这如同要将几个分数合并成一个分数一样,人们需要事先知道各自的加权系数,才能得出加权后的合成分数。通过合成的分数可以标定教师的教学水平,并给他 (她) 们排名 (Dolmans, Wolfhagen, Scherpbier, & van der Vleuten, 2003; Casabianca, Lockwood, & McCaffrey, 2015)。当然,这种合成的分数并不是在各个维度上的简单加权或求平均,而是基于一定条件全域之下所获得的分数,称作全域分数 (Universe Score)。例如,高校教师教学水平评价中每个教师所得的评价分数就是全域分数,这是因为高校教师教学水平所评价出的分数是在一定测量条件下所获得的,包括学生、项目、课程和专业等 (Chang & Hocevar, 2000; Shin & Raudenbush, 2012; Meyer, Liu, & Mashburn, 2014)。条件全域是测量侧面的条件样本所对应的条件总体。全域分数的实质含义是条件维度空间的一个向量,可认为是可以改变的,并随条件全域的不同而不同 (杨志明, 张雷, 2003)。在高校教师教学水平评价中,如果考虑学生、项目和课程全域,那么在这三个条件全域下所得的全域分数就不等同于两个条件全域下所得的全域分数,如,仅考虑学生和项目这两个条件全域。
然而,对于高校教师教学水平评价各维度进行分数合成相等权重好,还是不等权重好?如果是不等权重更好,那么又是多大权重才好呢?这需要对合成信度作进一步的动态赋值探索。另外,多元概化理论权重包括先验权重 (Priori Weights)、估计权重 (Estimation Weights) 和效果权重 (Effective Weights) (Marcoulides, 1994; Brennan, 2001a)。先验权重,是由研究者根据经验或理论赋予每个变量特定的权重。一般地,一个变量所包含的题目数占总题目数的百分比可以作为这个变量的先验权重 (Brennan, 2001a, p. 305)。不同于先验权重,估计权重不需要事先规定,是研究者自主设定对合成分数进行估计的权重。均方误差 (Mean-squared error variance) 是估计权重的一个重要概念。当估计权重与先验权重不等时,可以通过比较均方误差与先验权重下的合成误差方差 (Error variance for the composite) 之间的差异,来确定估计权重设定的合理性 (Brennan, 2001a, p. 308)。根据这一思想,估计权重也可用于检验“多元”的有效性,即将所有的权重都赋予其中一个变量,比较在这种情况下的均方误差与合成误差均方误差的差异。若差异不大,则说明可以将变量进行合并。若差异较大,则说明进行多元分析是必要的。效果权重是指各个变量自身产生的变异占总变异的百分比。如果各个变量自身产生的变异占总变异的百分比与各个变量的原始分数占总分的百分比趋于一致或接近,那么就说明效果权重达到了所期望的分数比例,分数合成效果较好。
估计权重、先验权重和效果权重在合成信度中产生的效应是否有别,以及作用机制如何?需要进行更为深入地探讨。结合高校教师教学水平评价,探讨多元概化理论合成信度估计权重、先验权重和效果权重的效应,为多元概化理论分数合成选择合适的权重提供借鉴和参考。
2 方法 2.1 研究工具使用“高校教师教学水平评价问卷”对高校教师教学水平进行评价,问卷有四个变量,分别为教学态度、教学内容、教学方法和教学效果,每个变量各5道题,共20道题目。四个变量指标的内部一致性系数依次为0.85、0.80、0.86和0.85,总量表的内部一致性系数为0.94。验证性因素分析表明问卷的效度符合测量学要求。问卷对四个变量的评价要求作出了说明,学生据此在四个变量的题目上对大学教师进行评价。
2.2 研究对象测评对象为某大学公共外语教学部的部分教师。参与评价的人员为不同班级的大一、大二和大三学生。测量模式为随机模式,测量目标为大学公共外语教学部随机抽取的16名教师,测量侧面为参与评价的543名大学生,分别来自文理工科的不同班级,如表 1所示。
教师 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
学生数 | 45 | 45 | 25 | 17 | 12 | 30 | 32 | 41 | 38 | 38 | 54 | 32 | 44 | 25 | 35 | 30 |
专业 | 文 | 理 | 工 | 工 | 文 | 文 | 理 | 理 | 工 | 文 | 理 | 文 | 工 | 理 | 工 | 文 |
年级 | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
测量设计为多元嵌套s·:t·设计,s表示学生 (students),t表示教师 (teachers)。“:”表示学生嵌套在教师中,也就是每个教师由不同班级的学生评价,而且学生的数目可能不同。选取的变量为四个 (教学态度、教学内容、教学方法和教学效果)。因此,该多元概化理论分析为“四元”分析。上标“·”表示在四个变量上测面的条件是相同的,也就是嵌套在教师中的学生要在四个变量上同时评价教师。对于“s·:t·”研究设计 (Brennan, 2001a, p. 40),其测量模型可表达为:
上述四个公式表示这个设计测量目标有四个变量或“四元”,等式左边为观察分数,右边为观察分数用两种形式的线性分解:一种是分数效应表示法;另一种是平均分表示法。由线性分解可知,总变异被分解为两个变异:一是测量目标 (教师) 本身的变异;二是嵌套在教师中的学生变异。
2.4 数据处理同一个教师在不同班级所得的测评分数可能有差异,造成这种差异的原因可能是因为学生评价教师的单位参照系统存在不同。因此,需要对原始数据进行统一量纲。统一量纲的方法是进行量表化 (Scaling),即各个维度采用线性链接 (Linking) 方法将教师分数分别进行等化 (漆书青, 戴海崎, 丁树良, 2002; Kolen & Brennan, 2004; 王烨晖, 边玉芳, 辛涛, 2011)。如果某教师同时在甲班和乙班授课,那么就可以通过线性链接建立起甲班上的评分相对应的乙班上的评分。最后,将链接后的数据转换成mGENOVA软件能够处理的数据形式 (Brennan, 2001b)。
3 结果 3.1 估计权重为了获得合成全域分数,可以不使用预先规定的权重, 即先验权重, 而是采用某些估计的值进行分数加权,这便是估计权重 (Brennan, 2001a, p. 307)。估计权重有别于先验权重, 可以测评后赋予,并不像先验权重一样需要根据经验或理论事先规定。
估计权重的作用在于探究进行“多元”分析是否合理。合成分数的均方误差 (Mean-squared error of composite universe score, MSEC(Δ)) 是评价估计权重合成分数的一个重要参考值,可以将其与合成分数的绝对误差方差 (Absolute error variance for the composite σc2(Δ)) 相比较,来说明概化理论进行多元分析的合理性 (Brennan, 2001a, p. 308)。将权重都任意赋给某一变量时,分别得到了相应的合成分数均方误差和绝对误差方差,如果两者相差不大,那么就可以认为能将几个元 (变量) 合并成一个元。反之,如果两者相差很大,那么就可以认为进行多元概化理论分析是合理的。探究多元概化理论的测量目标是否可分为“多元”,是进行多元概化理论分析的必要条件。否则,进行多元概化理论分析就显得不科学,也不合理。
根据调查的数据,利用相应公式可以计算出MSEC(Δ) 和σc2(Δ),并比较两者的差值,如表 2所示。
0.25:025:025:025 | 1:0:0:0 | 0:1:0:0 | 0:0:1:0 | 0:0:0:1 | |
MSEC(Δ) | 0.07516 | 0.31573 | 0.20626 | 0.28729 | 0.58199 |
σc2(Δ)* | 0.06906 | 0.06906 | 0.06906 | 0.06906 | 0.06906 |
注:计算σc2(Δ) 是在预先规定的先验权重0.20:0.20:0.20:0.40下进行。 |
表 2是通过mGENOVA计算出的不同估计权重下的均方误差MSEC(Δ) 和合成的绝对误差方差σc2(Δ)。其中,MSEC(Δ) 的计算公式为MSEC(Δ)=
先验权重是人们根据经验或理论所预先赋的权重 (Brennan, 2001a, p. 305)。比如,为了区分出变量的权重负荷大小,通常预先规定维度的权重,高校教师教学水平评价四个维度的先验权重为:教学态度:教学内容:教学方法:教学效果=0.20:0.20:0.20:0.40。它表示若总分为100分,那么教学态度20分,教学内容20分,教学方法20分,教学效果40分。
表 3列出了两种不同先验权重之比下合成的各种统计量:一种先验权重是教学态度:教学内容:教学方法:教学效果=0.25: 0.25: 0.25: 0.25;另一种先验权重是教学态度:教学内容:教学方法:教学效果=0.20: 0.20: 0.20: 0.40。
教学态度:教学内容:教学方法:教学效果 | 0.25: 0.25:0.25: 0.25 | 0.20: 0.20:0.20: 0.40 |
合成全域总分方差分量 | 0.14394 | 0.24642 |
合成全域总分绝对误差方差分量 | 0.05239 | 0.06906 |
合成全域总分的可靠性指数 | 0.73317 | 0.78109 |
合成全域总分的绝对信噪比 | 2.74766 | 3.56811 |
从表 3可以看出,如果D研究和G研究的样本一样,数据结构和数据模式也一样,变量间的权重系数发生改变,那么估计出的可靠性指数也将随之发生改变。
3.3 效果权重效果权重是各变量变异占总变异的百分比 (Brennan, 2001a, p. 306)。通过mGENOVA计算,合成效应的效果权重包括两部分:一是合成全域分数方差在各个变量的效果权重;二是合成绝对误差方差在各个变量的效果权重,如表 4所示。
从表 4可以看出,合成全域分数方差和合成绝对误差方差在各个变量的效果权重存在差异,且不与各个变量原始分数所占总分比例相一致。
贡献率 | 教学态度 | 教学内容 | 教学方法 | 教学效果 |
合成全域分数方差 (%) | 6.63% | 8.24% | 4.47% | 80.66% |
合成绝对误差方差 (%) | 9.95% | 12.72% | 13.27% | 64.06% |
为了获得合成全域分数,需要将各维度 (或变量) 统合在一个分数下,权重规定了各维度分数在合成全域分数的贡献和比例。对于分数合成,可以不使用预先规定的权重 (即先验权重),而是采用某些估计的值进行分数加权,这便是估计权重,其公式如下:
(1) |
在公式 (1) 中,
从表 2可以看出,当教学态度:教学内容:教学方法:教学效果=1:0:0:0时,均方误差MSEC(Δ)=0.31573,合成的绝对误差方差σc2(Δ)=0.06906,MSEC(Δ) 远远大于σc2(Δ)。当教学态度:教学内容:教学方法:教学效果=0:1:0:0或0:0:1:0或0:0:0:1时,结果相当。这表明,如果仅仅让某个变量承担所有的权重,也就是所有的权重只让某一个变量负载,那么均方误差MSEC(Δ) 在任何变量上都比合成的绝对误差方差σc2(Δ) 要大,这说明进行多元分析具有一定的合理性。当四个权重不为零且估计权重不等于先验权重时,估计权重的不同也会影响MSEC(Δ) 和σcs(Δ) 之间的差值。不断改变教学态度、教学内容、教学方法和教学效果的估计权重之比,对四个变量都赋权,如当教学态度:教学内容:教学方法:教学效果=0.25:025:025:025时,相较于权重只让某一个变量负载,MSEC(Δ)(0.07516) 与σcs(Δ)(0.06906) 的差值减少了。只有当MSEC(Δ) 和σcs(Δ) 的差值近乎为0时,四个变量的估计权重之比才为最佳权重之比。
4.2 先验权重分析先验权重是预先规定维度的权重。一般地,先验权重通常是按样本量或分值的比例来计算。例如,对于高校教师教学水平评价,如果评价教师教学水平的总分100分,且教学态度为20分,教学内容为20分,教学方法为20分,教学效果为40分,那么可表示为教学态度:教学内容:教学方法:教学效果=0.20:0.20:0.20:0.40。利用先验权重,能够将各个变量上的全域分数联系起来,合成一个总的全域分数,其公式如下:
(2) |
在公式 (2) 中,
从表 3可以看出,当教学态度:教学内容:教学方法:教学效果=0.25: 0.25: 0.25: 0.25时,表示按“等值权重”合成统计量,合成的全域总分的可靠性指数为0.73317。当教学态度:教学内容:教学方法:教学效果=0.25: 0.25: 0.25: 0.40时,表示按“先验权重”合成统计量,合成的全域总分的可靠性指数为0.78109。0.78109大于0.73317,这表明按“先验权重”合成的可靠性指数优于按“等值权重”合成的可靠性指数,说明先验权重有积极的意义。先验权重下合成的可靠性指数并不一定是最大值,仍可以改变权重提高合成的可靠性指数。当赋给各变量的权重为:教学效果1,其余变量零时 (相当于仅考虑教学效果的信度),这时合成的可靠性指数可以达到0.83628,这比0.78109要大。因此,可以通过改变各变量的权重来达到更高的可靠性指数。
4.3 效果权重分析与先验权重和估计权重一样,为了获得合成全域分数,也可以使用效果权重,其公式如下:
(3) |
(4) |
在公式 (3) 中,eων(τ) 表示合成全域分数的效果权重。在公式 (4) 中,eων(Δ) 表示合成绝对误差方差的效果权重。ων为各变量上的权重系数,
从表 4可以看出,合成全域分数效果权重所占的百分比分别为6.63%、8.24%、4.47%、80.66%,合成绝对误差效果权重所占的百分比分别为9.95%、12.72%、13.27%、60.04%,都与实际的20%、20%、20%和40%分数分配相差较大,这说明权重赋值有待改进。
4.4 综合分析根据上述分析,可综述如下:
第一,估计权重旨在考察进行多元概化理论分析是否合理,具有“把关”作用。对于本次高校教师教学水平评价,把所有权重仅赋给某一变量所算出的均方误差都要比赋给多个变量所算出的合成的误差方差更大,这表明进行多元概化理论分析具有合理性,不能把权重仅赋给某个单一变量,而应该赋给多个变量,各变量权重之比到底多大才是最佳,有待下一步进行考察,这就为寻找最佳权重提供了证据。
第二,先验权重对提高合成信度有着积极意义。对于本次高校教师教学水平评价,与等值权重相比,先验权重吸收了一些先验信息,可以提高评价的合成信度。但是,随着先验权重的改变,合成的可靠性指数也发生改变。如果在没有探究其它权重的情况下,那么对于本次高校教师教学水平评价可以优先使用先验权重。
第三,效果权重能够佐证先验权重是否有“资格”使用。如果各个变量自身产生的变异占总变异的百分比与各个变量的原始分数占总分的百分比趋于一致,或者说全域分数变异之比与实际分数分配差异较小,那么就可以认为使用先验权重是合适的,是有“资格”的。反之,则不可以使用先验权重。对于本次高校教师教学水平评价,根据效果权重分析结果,不应该优先使用先验权重。
多元概化理论对测量目标作“多元”处理,重视对合成信度的考察。按上述分析,为了得到可靠的多元概化理论合成信度,本研究提出一个多元概化理论“合成信度三种权重效应分析模式图”,如图 1所示。
对于类似于高校教师教学水平评价,若要进行多元概化理论合成信度的权重效应分析,则图 1包含了多元概化理论合成信度三种权重效应分析的“三个步骤”,说明如下:
第一步:过关。过关是指对数据进行概化理论的估计权重效应分析,若把权重赋予任一个变量MSEC(Δ) 都远大于σc2(Δ),则表明进行多元概化理论分析具有合理性,将测量目标分成“多元”是科学的,可进行下一步分析。否则,停止分析,或放弃合成信度权重处理,可视为没有“过关”。
第二步:验证。若基于先验权重之下产生的合成的可靠性指数大于或等于基于等值权重之下产生的合成的可靠性指数,在没有探究效果权重的情况下,可以优先使用先验权重。若效果权重验证到全域分数变异之比与实际分数分配差异较小,则表明可以放心使用先验权重。
第三步:求佳。若第一步过关,而第二步验证没有通过,则表明不得不放弃使用预先规定的先验权重,不得不找寻最佳权重。寻找最佳权重与探查最大的合成信度有关,当合成信度达到最大时,这时的权重之比则可视为最佳权重。
合成信度通常用合成的可靠性指数Φc来表示。求取合成的可靠性指数Φc的公式如下:
(5) |
在公式 (5) 中,
对于公式 (5),若令
(6) |
从公式 (6) 可以看出,求合成可靠性指数Φc的最大值,等价于求函数r的最小值。运用求r最小特征根的方法可求取Φc的最大值,对应的特征向量可视为各变量的最佳权重。
使用MATLAB7.0软件求取高校教师教学水平评价分数的典范系数向量 (Canonical coefficients)。通过计算,最小特征根为0.067,此时对应的特征向量为分别0.22、0.17、0.24、0.37,即教学态度:教学内容:教学方法:教学效果=0.22:0.17:0.24:0.37,为四个变量的最佳权重,这时对应的Φc=0.93762,就是本次高校教师教学水平评价最大合成可靠性指数。
本研究基于多元嵌套s·:t·设计,探讨了高校教师教学水平评价进行多元概化理论合成信度估计时的三种权重效应。对于其它多元概化理论研究设计的权重效应分析,也可以参考本文模式进行。
5 结论(1) 在高校教师教学水平评价中,多元概化理论合成信度估计权重、先验权重和效果权重产生不同效应。估计权重分析表明,数据符合进行多元概化理论分析的要求。与等值权重相比,先验权重吸收了一些先验信息,可以提高评价的合成信度,有积极意义。效果权重分析表明,全域分数变异之比与实际分数分配差异较大,先验权重不适合,应该探查最佳权重,最佳权重为教学态度:教学内容:教学方法:教学效果=0.22:0.17:0.24:0.37。
(2) 结合高校教师教学水平评价,在充分分析三种权重对合成信度影响的基础上,提出了一个多元概化理论“合成信度三种权重效应分析模式图”。该模式图包含了“三个步骤”,分别是过关、验证和求佳。多元概化理论“合成信度三种权重效应分析模式图”的提出,能为正确使用多元概化理论权重提供科学参考。
Brennan, R. L. (2001a). Generalizability theory. New York:Springer-Verlag. http://link.springer.com/referenceworkentry/10.1007/978-0-387-79948-3_1199 |
Brennan, R. L. (2001b). Manual of mGENOVA. Iowa City, IA:Iowa Testing Programs, University of Iowa. |
Casabianca J. M., Lockwood J. R., & McCaffrey D. F. (2015). Trends in classroom observation scores. Educational and Psychological Measurement., 75(2), 311-337. DOI: 10.1177/0013164414539163. |
Chang L., & Hocevar D. (2000). Models of generalizability theory in analyzing existing faculty evaluation data. Applied Measurement in Education, 13(3), 255-275. DOI: 10.1207/S15324818AME1303_3. |
Crooks T. J., & Kane M. T. (1981). The generalizability of student rating of instructors:Item specificity and section effects. Research in Higher Education, 15(4), 305-313. DOI: 10.1007/BF00973511. |
Dolmans D. J., Wolfhagen H. P., Scherpbier A. J., & van der Vleuten C. P. (2003). Development of an instrument to evaluate the effectiveness of teachers in guiding small groups. Higher Education, 46(4), 431-446. DOI: 10.1023/A:1027388806218. |
Kolen, M. J., & Brennan, R. L. (2004). Test equating, linking, and scaling:Methods and practices (2nd ed.). New York:Springer-Verlag. |
Marcoulides G. A. (1994). Selecting weighting schemes in multivariate generalizability studies. Educational and Psychological Measurement, 54(1), 3-7. DOI: 10.1177/0013164494054001001. |
Meyer J. P., Liu X., & Mashburn A. J. (2014). A practical solution to optimizing the reliability of teaching observation measures under budget constraints. Educational and Psychological Measurement, 74(2), 280-291. DOI: 10.1177/0013164413508774. |
Shin Y., & Raudenbush S. W. (2012). Confidence bounds and power for the reliability of observational measures on the quality of a social setting. Psychometrika, 77(3), 543-560. DOI: 10.1007/s11336-012-9266-4. |
漆书青, 戴海崎, 丁树良. (2002). 现代教育与心理测量学原理. 北京: 高等教育出版社. |
王烨晖, 边玉芳, 辛涛. (2011). 垂直等值的应用及最新发展述评. 心理学探新, 31(5), 472-476. |
杨志明, 张雷. (2003). 测评的概化理论及其应用. 北京: 教育科学出版社. |