心理发展与教育  2016, Vol. 32 Issue (1): 73-80   PDF    
http://dx.doi.org/10.16187/j.cnki.issn1001-4918.2016.01.10
国家教育部主管、北京师范大学主办。
0

文章信息

温红博, 唐文君, 刘先伟. 2016.
WEN Hongbo, TANG Wenjun, LIU Xianwei. 2016.
识字能力的单维性检验研究
Unidimensional Assessment for Ability of Literacy
心理发展与教育, 32(1): 73-80
Acta Meteorologica Sinica, 32(1): 73-80.
http://dx.doi.org/10.16187/j.cnki.issn1001-4918.2016.01.10
识字能力的单维性检验研究
温红博 , 唐文君 , 刘先伟    
北京师范大学教育学部, 北京 100875
摘要:本研究以义务教育阶段学生识字量测验为工具,综合运用探索性结构方程建模(ESEM)以及非参数项目反应理论中的摩根量表(Mokken量表)和DETECT分析方法,探讨了识字能力的维度。探索性结构方程建模结果显示,识字的单维性模型优于多维模型,多维的结果更多的体现出一个难度维度的特征,即字频的作用。Mokken量表分析结果显示,1~2年级和3~9年级测验更倾向于单维量表的特征。DETECT分析结果显示,两个测验的D值趋近于零,表明识字能力是单维能力。结合三种分析方法,识字能力具有单维性。
关键词识字能力     单维性检验     探索性结构方程建模     非参数项目反应理论    
Unidimensional Assessment for Ability of Literacy
WEN Hongbo, TANG Wenjun, LIU Xianwei     
Faculty of Education, Beijing Normal University, Beijing 100875, China
Abstract:Comparability of test scores are affected by the test's dimensionality, before estimating student's scores, we need to estimate literacy's dimensionality. The study aims to analyze dimensionality of literacy ability based on dichotomous items scale for compulsory education phase students. We assume that literacy is unidimensional. The tool is Chinese character quantity test for compulsory education stage students, the test is constructed of two editions; the first edition is used for 1 to 2 grade students, and is consisted of 36 Chinese characters. The second edition is used for 3 to 9 grade students, and is consisted of 45 Chinese characters. And the test's reliability and validity are good, can be used to analyze dimensionality of literacy ability. More than 1300 students, from one to eight grades students, are selected randomly. Using exploratory structural equation modeling (ESEM) and nonparametric item response theory (NIRT), including the MSP and DETECT, to analyze literacy dimensionality. At first, do exploratory structural equation modeling analysis, using Mplus6.0. The model fit analysis results show, the model fit index for unidimensional model and multidimensional model are all acceptable, and the multidimensional model is better than unidimensional model, but considering of terseness of model, the unidimensional model is more appropriate. The eigenvalue analysis results show, the largest eigenvalue divide the second eigenvalue is 2.62 for 1~2 edition, and 5.35 for 3~9 edition test. According to the criterion, the 3~9 edition test is one-dimensional test, and the 1~2 edition is not. For factor loading analysis, in 1~2 edition test, in single factor model, the factor loading are above than 0.4 for all, except the 8 item. In double factors model, in despite of the 23 item is less than 0.4, the 1 item to 11item and 14 item are all belong to the factor 1, others are belong to the factor 2. Because items are assigned according to the word frequency from high to low, the results indicate, word frequency influenced literacy, but it is just a difficult dimensionality rather than an ability dimensionality. The 3~9 edition test shows similar results. In a word, the unidimensional model is superior to the multidimensional model, and in multidimensional model, didn't find differences between sound and meaning of literacy. The multidimensional results reflect a difficult dimensionality characteristics, is the role of word frequency. Second, nonparametric item response theory analysis is conducted, using Mokken scale to test dimensionality with MSP 5 procedure, the results find, 1~2 test and 3~9 test show unidimensional scale features as c increasing. At last, using DETECT to test dimensionality with DETECT v.2.1, the results show, D<0.2 for 1~2 test and 3~9 test, that is to say, 1~2 test and 3~9 test show unidimensional scale features. For three methods, the literacy ability tends to accept unidimensional hypothesis. We can draw the conclusion, the literacy ability tend to be unidimensional ability, but would be affected by word frequency. So teachers should pay attention to recreate literacy teaching, let students read more, improve students' familiarity of literacy, in order to help students to increase quantity of literacy. But there are some aspects need to improve, for example, at selecting participants, this study selects participants only from eight grades, from nine grades would be better; and the number of 1to 2 grade students is only 253, increasing the number would be better.
Key words: literacy ability     unidimensional assessment     exploratory structural equation modeling (ESEM)     nonparametric item response theory (NIRT)    
1 问题的提出

识字是学生在义务教育阶段的重要学习任务,掌握一定的识字量是基础教育的基本要求(教育部,2012)。识字量是衡量中小学生学习质量的主要指标之一,学生识字量的发展状况是制定语文课程标准的重要依据。识字量测试引发了众多研究者的关注(温红博等,2015洪俪瑜,王琼珠,张郁雯,陈秀芬,2008王孝玲,陶保平,1996)。识字量测验的编制者普遍采用从字库中抽取测试用字,通过被试认识的测试用字数量推断被试的识字能力和识字量。这里有一个所有研究者没有明确提出,但默认的共同假设,即识字能力是单维能力。

然而研究者基于识字的认识和研究对此提出了质疑。艾伟在《汉字问题》中对识字进行定义,“所谓识字者谓见形而知声、义”(艾伟,1949),从心理词典的角度讲,汉字是音、形、义三者的统一体。研究者发现字音和字义在识字中都有特殊的作用。语音意识与小学生的汉字识别能力存在显著相关(李虹,舒华,2009)。字音对汉字既有促进作用,也有阻碍作用,汉字中能够表音的形声字,其字音起着促进作用(陈立伟,2011)。汉字的意义度在汉字认知与记忆保持过程中起着重要作用,高意义度汉字的认知与记忆保持都显著地优于低意义度的汉字(钱文,1998)。影响识字更广为关注的另一个方面是形成心理词典的核心之一-字频。有研究指出,字频与汉字认识率存在中度以上相关(王孝玲,1992)。这些研究提示我们,汉字在字音、字义和字频等方面存在的巨大差异,可能导致识字中存在不同的方面,换而言之,识字能力内部可能具有一定的结构,存在着多个维度。

探讨识字的单维和多维可以帮助我们进一步理清识字能力的内部结构和识字的心理实质,这不仅对识字量测验的编制具有重要的价值,而且对识字教学具有重要的理论指导意义。从教育、心理测量学的角度,测验的维度研究可以判断测试出来的能力变量在单维还是多维空间,即编制的测验是测量了一个还是多个能力。这是现代测量理论-项目反应理论分析的前提条件,对于选择分析模型和算法具有重要的实际价值。

目前检验测验维度的方法可分为参数估计方法和非参数估计方法。参数估计方法常用的有探索性因素分析法(Exploratory Factor Analysis,EFA)和验证性因素分析法(Confirmatory Factor Analysis,CFA)以及探索性结构方程建模(Exploratory Structural Equation Modeling,ESEM)。探索性因素分析和验证性因素分析要求数据满足多元正态分布假设,对识字量测试这种二分变量并不适用。探索性结构方程建模整合了探索性因素分析和验证性因素分析的功能,既能探索因子结构,又能验证因子结构,同时还可以分析潜变量之间的关系(Sass & Schmitt,2011; Schmitt,2011),比验证性因素分析得出的结论更接近真实结果(Marsh,Liem,Martin,Morin,& Nagengast,2011)。因此,探索性结构方程建模作为探索测验内部结构,判断维度的新方法,更适合在研究中使用。

非参数估计方法主要是指使用非参数项目反应理论(Nonparametric Item Response Theory,NIRT)进行维度检验。常见的非参数方法主要有两种类型,一种是基于单调同质模型(The Monotone Homogeneity Model,MHM)的摩根量尺程序(The Mokken Scaling Procedure,MSP)(Mokken,1971)。MSP方法分析测验维度的过程,实质上是在全部试题中,依据量表适宜性系数(scalability coefficients)分析提取若干个单维量表的过程;其中试题i与试题j之间的量表适宜系数记为Hij,试题i与剩余试题全体间的量表适宜系数记为Hi,试题全体的量表适宜系数记为H。量表适宜性系数可以用来判断模型与测试数据的拟合程度。若测验满足单调同质模型,那么三种量表适宜性系数就都处于0和1 之间,且仅当H>c时,量表才具有稳定的解释性,c是低限,可根据需要设定,最小值为0.3(张军,2014)。

在单调同质模型中,用H系数分析抽取出的量表为摩根量表(张军,2014)。摩根量表具有单维性、局部独立性和项目反应函数的单调性三个特征(雷新勇,2007),可用作单维性分析。

非参数估计的另一种方法是基于条件协方差进行的分析,常用的软件有HCA/CCPROX、DIMTEST和DETECT(Zhang,2007)。其中DETECT是专为二分变量设计的,并且能够从多个方面对测验结构做出说明(Zhang & Stout,1999Kim,1994)。DETECT作为判断分析数据背后维度数的一种非参数方法,可以对数据的多维程度进行量化,鉴别每个题目主要测量的维度(Roussos & Ozbek,2006)。

本研究将综合运用探索性结构方程建模和非参数项目反应理论中的MSP和DETECT三种方式,探讨识字能力的维度。

2 研究方法2.1 研究对象

本研究从某市分层随机抽取一到八年级学生,共抽取1334名被试参加识字量测试,其样本构成分布如表 1所示。

表 1 被试样本年级和性别分布表
年级合计
男生715480736375165135716
女生587061576765128112618
合计1291241411301301402932471334
2.2 研究工具

研究工具为《义务教育阶段学生识字量测验》(温红博等,2015),测验以《语文课程标准》规定的常用字1500和次常用字2000为依据(教育部,2012),建立中小学生识字量测试字库,共选取3800字作为测试字库。对字频取对数后再按对数频率进行分组,共分为13组,经过对数转换后各组的同质性较高。按照每组约1/60的比率抽取测试用字。测验按学生识字发展阶段分为两个版本,第一个版本适用于一至二年级学生,从前8个字频组中选取了36个字;第二个版本适用于三至九年级学生,从后10个字频组中选取了45个字。每个测验都是按照字频从高到低排序,测验以字音和字义都正确作为识字的判断标准,所有题目采用0、1计分,认识该字记为1分,不认识记为0分。测验的测量学指标检验结果显示,1~2年级测验的难度范围为0.23~0.97,测验难度的均值为0.76,标准差是0.19,所有题目的区分度在0.4附近。3~9年级测验的难度范围为0.13-0.99,测验难度的均值为0.79,标准差是0.16,大部分题目的区分度在0.4以上。两个版本测验题目的难度适宜、区分度良好。1~2年级测验的Alpha系数达到0.92,分半信度为0.93;3~9年级测验的Alpha系数为0.90,分半信度为0.93。两个版本测验均具有较高的信度。测验的构念效度分析显示,1~2年级模型的自由度为594,卡方值为1197.904,p值小于0.001,CFI=0.853,TLI=0.844,RMSEA=0.062;3~9年级模型的自由度为945,卡方值为1585.289,p值小于0.001,CFI=0.932,TLI=0.929,RMSEA=0.025。总体来说,该测验的测量学指标良好,可以用于识字量的测试。

研究采用SPSS18.0对数据进行整理,选择Mplus6.0进行探索性结构方程建模分析,选择MSP 5和DETECT v.2.1进行非参数项目反应理论分析。

3 结果3.1 探索性结构方程建模3.1.1 模型拟合指数

1~2年级单因子模型的自由度为594,卡方值为1197.905,p值小于0.001,卡方值与自由度的比值(χ2/df)为2.017,CFI=0.853,TLI=0.844,RMSEA=0.062;双因子模型的自由度为559,卡方值为670.983,p值小于0.001,卡方值与自由度的比值(χ2/df)为1.200,CFI=0.973,TLI=0.969,RMSEA=0.027;从模型拟合的角度看,单因子模型和双因子模型都可以接受。但是双因子模型比单因子模型卡方值少526.922,自由度少35,卡方检验差异显著,这表明双因子模型的变化是显著不同的。

3~9年级单因子模型的自由度为945,卡方值为1585.289,p值小于0.001,χ2/df为1.678,CFI=0.932,TLI=0.929,RMSEA=0.025;双因子模型的自由度为901,卡方值为1163.425,p值小于0.001,χ2/df为1.291,CFI=0.972,TLI=0.969,RMSEA=0.016;两个模型的拟合度都很好,虽然双因子模型的拟合度略好于单因子模型,但差异不大,从模型简洁度考虑,单因子模型更为合适。但是双因子模型比单因子模型卡方值少421.864,自由度减少44,卡方检验差异显著,这表明双因子模型的变化是显著不同的。模型拟合结果表明,单因子模型可以接受,但是双因子模型拟合更好,需要进一步分析特征根比值。

3.1.2 特征根比值

1~2年级测验的第一特征根值为15.696,次特征根值为5.989,第一特征根值是第二特征根值的2.62倍。3~9年级测验的第一特征根值为17.976,次特征根值为3.359,第一特征根值是第二特征根值的5.35倍。早期在采用探索性因素分析时,研究者都采用了一个经验标准,即分析最大特征值与次大特征值之比的方法,一般认为,只要第一特征值与第二特征值的比值大于3,则可认为该测验是一个单维性测验(Slocum,2005)。根据这个标准,3~9年级测试满足了单维性假设,而1~2年级测试不满足单维性的假设。在对比特征根值的基础上,需要进一步观察因子负荷。

3.1.3 因子负荷值

因子负荷结果见表 2表 3,1~2年级测验在单因子模型中,所有题目归属于一个因子,除第8题负荷为0.345,低于0.40外,其余题目因子负荷都较高,结构较为合理。两因子负荷中,第1题到第11题和第14题,构成了因子一,其余题目构成了因子二,第23题在两个因子上负荷低于0.4,不属于上述两个因子。从模型的角度看,单因子模型和双因子模型,都是可以接受的。但是测验中所有题目是按照字频从高到低进行排序的,两维结果明显是受到字频影响,是一个难度维度,而在认知测验中,一般不认为难度维度成为一个独立的维度(Wiley,Shavelson,& Kurpius,2014)。比较两个模型,单维模型更为合理。

表 2 1-2年级测验两个因子模型的因子负荷矩阵
题号单因子负荷两因子负荷题号单因子负荷两因子负荷
因子一因子一因子二因子一因子一因子二
B010.5480.804-0.030B190.645-0.0060.686
B020.5070.902-0.222B200.7560.0010.790
B030.6340.8590.001B210.7090.2390.647
B040.7731.002-0.095B220.5670.1460.539
B050.7240.8540.107B230.4500.3010.332
B060.5780.6680.220B240.762-0.1240.852
B070.6240.903-0.037B250.8240.0470.833
B080.3450.4590.116B260.811-0.0470.859
B090.6060.6640.229B270.7360.3310.629
B100.6990.6830.397B280.7470.2190.693
B110.7390.5620.531B290.7320.1090.723
B120.8070.3570.697B300.7220.3180.620
B130.4490.1420.419B310.7480.2780.667
B140.6660.6840.297B320.6810.2130.623
B150.791-0.1410.878B330.902-0.0040.922
B160.6450.510.418B340.839-0.1080.908
B170.817-0.1460.897B350.791-0.0030.822
B180.4270.0340.495B360.705-0.0180.0729
表 3 3~9年级测验两个因子模型的因子负荷矩阵
题号单因子负荷两因子负荷题号单因子负荷两因子负荷
因子一因子一因子二因子一因子一因子二
B010.5400.726-0.154B240.7530.7860.028
B020.6080.4020.293B250.4760.2330.315
B030.3490.557-0.205B260.7090.5210.286
B040.6720.759-0.028B270.6240.4690.244
B050.4280.804-0.403B280.6440.4420.295
B060.6010.5710.105B290.7030.3540.455
B070.3370.594-0.249B300.6720.3360.439
B080.4990.687-0.167B310.6910.3960.399
B090.6430.806-0.134B320.6510.3790.369
B100.5780.713-0.101B330.5490.0320.599
B110.5630.646-0.032B340.6710.4170.352
B120.7350.7870.003B350.7490.4620.398
B130.5070.4480.123B360.6290.1390.588
B140.7040.6960.081B370.5310.2740.337
B150.6670.6580.079B380.7160.2620.564
B160.7480.5420.309B390.7360.3670.481
B170.7010.5990.189B400.5870.3790.293
B180.6020.6570.008B410.651-0.0360.778
B190.5440.604-0.011B420.6920.0150.774
B200.6250.6400.050B430.7280.3890.449
B210.6310.5550.156B440.5240.0040.618
B220.6940.7060.058B450.593-0.1480.830
B230.7270.5400.285

3~9年级测验的结果基本与1~2年级测验结果相同。在单因子模型中,所有题目归属于一个因子,除第3、7题负荷低于0.40外,其余题目因子负荷都较高,结构较为合理。两因子负荷中,第1题到第28题及后面的第34、35题,构成了因子一,第29题及之后的其余题目构成了因子二,而且第25、32、37、40题在两个因子上负荷都低于0.4,不属于上述两个因子。从模型的角度看,单因子模型和双因子模型,都是可以接受的。但3~9年级测验中所有题目是按照字频从高到低进行排序的,两维结果明显是受到字频的影响,是一个难度维度,而在认知测验中,一般不认为难度维度成为一个独立的维度(Wiley et al.,2014)。比较两个模型仍然是单维模型更为合理。

综合两个测验的模型拟合指标、特征根比值和因子负荷矩阵,识字的单维性模型优于多维模型,并且在多维模型中,没有观察到字音、字义的差异,多维的结果更多的体现出一个难度维度的特征,即字频的作用。

3.2 非参数项目反应理论的Mokken量表分析

单调同质模型具有单维性、局部独立性和单调性三个基本假设,满足单调同质模型的量表被称为Mokken量表(张军,2014)。通过量表适宜性系数(Hij、Hi和H)来衡量测验是否为Mokken量表,其中项目i和项目j之间的量表适宜系数为Hij,剩余项目全体的量表适宜系数为Hi,全体项目的量表适宜系数为H,公式如下(张军,2014):

注:cov指条件协方差,piθ是被试答对某项目的概率,R(i)指除i外其它题目的总分。

Mokken(1971)提出,Hij应大于0,Hi、H至少为0.3,当0.3≤H<0.4,量表测量的准确度较弱;当0.4≤H<0.5时,量表测量的准确度中等;当H≥0.5时,量表测量的准确度强。摩根量表程序(MSP)是构建摩根量表的一种算法,Hemker,Sijtsma和Molenaa(1995)提出在执行MSP时,以c=0为初始值,0.55为终点值,0.05为步长,随着c值的增加,如果测验是单维的,可能出现以下三个阶段:绝大部分或全部项目归为一个量表;形成一个较小的量表;形成一个或几个小量表,同时许多项目被剔除。如果是多维测验,则可能会出现:绝大部分或全部项目归为一个量表;形成两个或多个量表;形成两个或更多的小量表,同时剔除许多项目。关于阶段的划分,有研究者提出,当c<0.3时,为第一阶段;当0.3≤c<0.5时,为第二阶段;当c≥0.5时,为第三阶段(张军,2010)。

本研究使用MSP 5 操作程序,以c=0.25为初始值,c=0.55为终点值,0.05为步长,逐步设定c值,对1~2年级测验和3~9年级测验进行分析,分析结果见表 4表 5

表 4 1~2年级测验摩根量表程序(MSP)分析结果
量表c=0.25c=0.30c=0.35c=0.40c=0.45c=0.50c=0.55
NHNHNHNHNHNHNH
量表1250.52250.52250.52220.55210.57180.61160.64
量表220.4520.6820.68
量表320.59
淘汰题数11001455
注:其中H表示量表适宜性系数;N表示量表中项目的数量;如表中第二列表示,当c=0.25时,25题归于一个量表,H=0.52,量表测量的准确度强。
表 5 3~9年级测验摩根量表程序(MSP)分析结果
量表c=0.25c=0.30c=0.35c=0.40c=0.45c=0.50c=0.55
NHNHNHNHNHNHNH
量表1360.38350.39300.41210.45130.4990.5350.60
量表220.4430.4650.4930.6230.62
量表320.5820.5830.5330.59
量表440.4430.5230.5420.67
量表520.5620.5820.61
量表620.5620.56
量表720.5420.55
淘汰题数9146111217

1~2年级测验,随着c值的增大,在第一阶段,c=0.25时,全部项目归为一个量表,这一阶段单维和多维特征相似,无法判断;在第二阶段,0.3≤c<0.4时,大部分项目归为一个量表,当c=0.4时,形成一个较大的量表和一个小量表,其中小量表只有2题,当c=0.45时,只形成一个量表,总体来说,这一阶段倾向于单维量表的特征;在第三阶段,c≥0.5,最后得到一个较大的量表和两个小量表,但小量表结构较不稳定,共剔除5题,剩余20题,倾向于单维量表特征,综合判断1~2年级量表倾向为单维量表。

3~9年级测验,随着c值的增大,在第一阶段,c=0.25时,所有项目归为一个量表,这一阶段单维和多维特征相似,无法判断。在第二阶段,当c=0.3时,绝大部分项目归为一个量表,当0.3≤c<0.5时,形成一个较大的量表和一些小量表,但这些小量表十分不稳定。在第三阶段,c≥0.5,得到七个子量表,共剔除17题,剩余19题,除量表 1外,其它量表结构均不稳定,包含项目数少。综合三个阶段,量表更倾向于单维量表特征。

3.3 非参数项目反应理论的DETECT分析

DETECT的理论依据是在测量的潜在特质θ相同条件下,测量同一维度的题目间的条件协方差为正,即cov(xi1xi2|θa)>0,xij为被试i在第j个题目上的得分),测量不同维度的题目间的条件协方差为负cov(xi1xi2|θa)<0。DETECT的结果能够提供多个指标,从多方面对测验结构做出说明(Roussos,Stout,& Marden,1998)。

DETECT通过计算D值来估计测验的多维性,D值表示多维性的效应值,D值越大,数据的多维性越强(Jang & Roussos,2007)。其计算公式为(Zhang & Stout,1999):

fa(θ)为能力值θ的密度函数,由被试潜在能力分布决定(Zhang & Stout,1999)。

DETECT能够检验测验是否符合简单结构或近似简单结构。DETECT提供了IDN与R两个指标对此进行验证。IDN是两两题目之间条件协方差的符号符合期望模式的比例,具体计算公式如下(Zhang & Stout,1999):

R指标是D值与其可能的最大值之间的比例,

IDN和R越接近1,测验越可能符合简单结构(Jang & Roussos,2007)。

本研究使用DETECT程序计算了相关指标,结果如下:1~2年级识字测验D值为0.0128,IDN指数为0.4635,r值为0.0177;3~9年级识字测验D值为-0.0073。IDN指数为0.4616,r值为-0.0257,两个测验的条件协方差符号矩阵见附录1所示。研究发现,当D值大于等于1时,体现了强多维性(Kim,1994);当其在0.4~1之间时,体现了中等到强的多维性;当其小于0.4时,体现了中等到弱的多维性;当D值小于0.2时,测验为单维结构(Jang & Roussos,2007)。关于条件协方差的研究表明,条件期望方差Ecov(xi1xi2|θa)提供关于特质空间维度复杂性的信息,对于单维性测验,协方差cov(xi1xi2|θa)=0,因而D(p)的理论值也为零(Zhang,1996)。

研究结果表明,一二年级识字测验D值0.0128;三到九年级识字测验D值为-0.0073;两个版本的测验的D值都小于0.2并且趋近于零,表明识字能力是单维能力。然而,测验的简单结构或近似简单结构检验结果表明识字能力虽然具有单维性,但是可能受到字频的影响,并非是一个完全简单结构。这个结果与探索性结构方程建模和非参数的摩根量表程序分析结果基本一致。

4 讨论

识字的维度检验和分析在诸多方面具有重要的意义。从认知心理学的角度看,维度的划分揭示了识字的结构和构念,对于深入理解识字这一特质和心理现象具有重要意义。从心理计量学的角度看,识字维度的确定是对识字测验进行构念效度检验的有效效证之一,对于识字测验结果的解释和推论具有重要的实证证据价值。在现代心理和教育测量理论中,识字的维度分析是项目反应理论一个重要假设,会影响到识字测验后续分析中的模型选择、参数估计、测验链接与等值和分数报告等诸多方面。从研究方法上看,维度的研究是最符合潜变量模型研究特质的研究领域之一,研究者将维度定义为,对于一个特定的数据集,可以解释项目作答反应之间关系的潜变量的个数(Gregory,Wang,& Jacqueline,1995)。

维度检验和分析的方法,从几何的角度来说,就是探寻题目的向量所构成的n维空间,同样维度题目的向量具有相同的方向,这些题目构成了相对同质的类,从而在测验中能够单调性反映出稳定的特征。从统计学的角度来说,维度检验和分析就是通过题目间协方差和方差之间统计意义上的解释,来理清一系列测验题目作答反应背后的潜在特质个数,从而用较少的潜在因素解释繁复的题目表现。

本研究采用探索性结构方程建模、非参数项目反应理论的摩根量尺程序和DETECT软件探讨识字能力的维度。三种分析方法都表明识字是一个单维能力,探索性结构方程建模的模型拟合结果表明,单因子模型和双因子模型都可以接受,双因子模型拟合更好。但是在采用因素分析方法时,题目的难度会影响分析结果,由于因素分析是根据协方差矩阵或相关矩阵进行分析,当题目难度跨度较大时,往往会产生一个难度上的维度划分。而在认知测验中,我们一般将难度不作为一个单独的维度(Wiley et al.,2014),因此,综合模型拟合结果、特征根比值和因子负荷分析,识字的单维性模型优于多维模型。在非参数项目反应理论的摩根量表分析和DETECT分析中也证明了这点,在非参数项目反应理论的摩根量表分析中,随着c值的增大,区分度较小但未能满足条件的题目被剔除,两个题库逐渐形成一个较大的量表和其它一些不稳定的小量表,量表更倾向于单维量表的特征。DETECT研究结果表明,两个版本测验的D值都小于0.2并且趋近于零,这说明识字能力是单维能力。然而,测验的简单结构检验结果表明识字能力虽然具有单维性,但是并非是一个完全简单结构。这个结果与探索性结构方程建模和摩根量表程序分析结果基本一致,识字能力是单维能力,但内部还存在着类似于难度的字频的影响。

本研究尚存在一些不足,首先,本研究只选取了八个年级的被试,在下一步研究中,应尽可能选择整个义务教育阶段九个年级的学生,确保被试年级的完整性。其次,研究样本量有待提高,被试数量会影响分析结果,可能需要在更为严格的抽样条件下,选取样本进一步验证本研究的结果。

5 结论

本研究主要结论如下:

(1)探索性结构方程建模分析对1~2年级测验和3~9年级测验的分析结果表明,义务教育阶段学生的识字能力具有单维性;

(2)非参数项目反应理论的摩根量表分析和DETECT分析对1~2年级测验和3~9年级测验的分析结果均表明,义务教育阶段学生识字能力具有单维性;

(3)识字能力具有单维性,其并非一个简单结构,而是一个较为复杂的,受到字频难度影响的单维结构。

参考文献
Gregory, C., Wang, M., & Jacqueline, F. (1995). The effects of dimensionality on equating the law school admission test. Journal of Educational Measurement, 32(1), 79-96.
Hemker, B. T., Sijtsma, K., & Molenaar, I. W. (1995). Selection of unidimensional scales from a multidimensional item bank in the polytomous Mokken IRT model. Applied Psychological Measurement, 19(4),337-352.
Jang, E. E., & Roussos, L. (2007). An investigation into the dimensionality of TOEFL using conditional covariance-based nonparametric approach. Journal of Educational Measurement, 44(1), 1-22.
Kim, H.R. (1994). New techniques for the dimensionality assessment of standardized test data. Unpublished doctoral dissertation, Department of Statistics, University of Illinois at Urbana-Champaign.
Marsh, H. W., Liem, G. A. D., Martin, A. J., Morin, A. J. S.,& Nagengast, B. (2011). Methodological measurement fruitfulness of exploratory structural equation modeling (ESEM):New approaches to key substantive issues in motivation and engagement. Journal of Psychoeducational Assessment, 29(4), 322-346.
Mokken, R. J.(1971). A theory and procedure of scale analysis.The Hague:Mouton/Berlin:De Gruyter.
Roussos, L.A., & Ozbek, O. (2006). Formulation of the DETECT population parameter and evaluation of DETECT estimator bias. Journal of Educational Measurement, 43(3), 215-243.
Roussos, L. A., Stout, W. F., & Marden, J. I. (1998). Using new proximity measures with hierarchical cluster analysis to detect multidimensionality. Journal of Educational Measurement, 35(1), 1-30.
Sass, D. A., & Schmitt, T. A. (2011). Introduction to the special issue:Moving beyond traditional psychometric approaches. Journal of Psychoeducational Assessment, 29(4), 299-303.
Schmitt, T. A. (2011). Current methodological considerations in exploratory and confirmatory factor analysis. Journal of Psychoeducational Assessment, 29(4), 304-321.
Slocum, S.L. (2005). Assessing unidimensionality of psychological scales:Using individual and integrative criteria from factor analysis. Unpublished Doctoral Dissertation, University of British Columbia, Canada.
Wiley, E.W., Shavelson, R.J., & Kurpius, A.A.(2014). On the factorial structure of the SAT and implications for next-generation college readiness assessments. Educational and Psychological Measurement, 74(5), 859-874.
Zhang, J. (1996). Some fundamental issues in item response theory with applications. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign, Department of Statistics.
Zhang, J. (2007). Conditional covariance theory and detect for polytomous items. Psychometrika, 72(1), 69-91.
Zhang, J., & Stout, W. (1999). The theoretical DETECT index of dimensionality and its application to approximate simple structure. Psychometrika, 64(2), 213-249.
艾伟.(1949).汉字问题.上海:上海中华书局.
陈立伟.(2011).艾伟的《阅读心理-汉字问题》研究.聊城大学学报(社会科学版), (2),152-153.
洪俪瑜,王琼珠,张郁雯,陈秀芬. (2008).学童识字量评估测验之编制报告.测验学刊, 55(3),489-508.
教育部.(2012).全日制义务教育语文课程标准(2011年版).北京:北京师范大学出版社.
雷新勇.(2007).用非参数项目反应理论模型研究大规模教育考试维度的问题.华东师范大学学报(教育科学版),25(3),57-69.
李虹,舒华.(2009).学前和小学低段不同识字量儿童的认知能力比较.心理发展与教育,(3),1-8.
钱文.(1998).影响汉字识记的基本因素的研究.教育科学研究,(1),45-49.
王孝玲.(1992).汉字频度与小学生认识率的相关性.上海教育科研,64(4),21-22.
王孝玲,陶保平.(1996).小学生识字量测试题库及评价量表.上海:上海教育出版社.
温红博,唐文君,刘先伟.(2015).义务教育阶段学生识字量的测验编制.语言文字应用,(3),88-100.
张军.(2010).非参数项目反应理论在维度分析中的运用及评价.心理学探新,30(3),80-83.
张军.(2014).非参数项目反应理论在小规模测验中的运用.考试研究,(1),56-61.