Development and Validation of Numerical Reasoning Test for Grade 7~8 Students

Shouying ZHAO; Rongrong REN; Wei CHEN; Bangjun MU

doi:10.12139/j.1672-0628.2024.03.013

Studies of Psychology and Behavior >

2024 , Vol. 22 >Issue 3: 387 - 394

DOI: https://doi.org/10.12139/j.1672-0628.2024.03.013

Development and Validation of Numerical Reasoning Test for Grade 7~8 Students

Shouying ZHAO ^,*^,¹^,² ,
Rongrong REN ¹ ,
Wei CHEN ¹ ,
Bangjun MU ¹

Expand

1. School of Psychology, Guizhou Normal University, Guiyang 550025
2. Kaili University, Kaili 556011

Received date: 2023-03-31

Online published: 2024-09-30

Copyright

Fold

Abstract

In the present study, items of numerical reasoning were developed for Grade 7 and Grade 8 students in China, which was based on the subscale numerical reasoning of the Differential Aptitude Test from America. Twenty-two items were included in the initial test. More than 7500 7th and 8th grade students participated in the study. After exploratory factor analysis, confirmatory factor analysis and Rasch analysis, the final instrument consisted of 18 items with good reliability and validity, which showed no gender differential item functioning. It suggests that the test is an effective and reliable tool for assessing 7th and 8th grade students’ numerical reasoning. The test can be used to identify underachieving students who have a high numerical ability. In addition, it can be used to screen for students with mathematical learning difficulties that caused by insufficient numerical reasoning ability. Therefore, the application of the test is helpful for educators to provide assistance to students who need help.

Key words： numerical reasoning; Rasch analysis; reliability; validity

Cite this article

Shouying ZHAO , Rongrong REN , Wei CHEN , Bangjun MU . Development and Validation of Numerical Reasoning Test for Grade 7~8 Students[J]. Studies of Psychology and Behavior, 2024 , 22(3) : 387 -394 . DOI: 10.12139/j.1672-0628.2024.03.013

1 引言

能力倾向是指个体在不同能力因素上潜在的优劣倾向(戴海崎, 张锋, 2018)。Berk(2000)认为能力倾向是指一种特定的能力，如算数或回忆事实性信息。能力倾向的形成是个体特征和环境中的学习机会之间相互作用的结果(Cohen & Swerdlik, 2002)。Reber(1995)认为能力倾向是可以测量的，并且可以用来预测个体在某个特定领域中可能获得的成就水平。在教育心理学领域中，能力倾向是指学习者能够很好地学会适应并解决各种问题的潜在能力(张月娟, 龚耀先, 2004)。学业能力倾向测验与成就测验不同，成就测验是对个体过去学习经验的总结，学业能力倾向测验的目的不在于总结过去，而在于预测未来；虽然智力测验也在于预测，但其依据的理论基础与能力倾向测验不同，所做出的预测针对性较弱，而能力倾向测验预测的目的性更强，与成就测验结合使用还可以诊断出能力与学业成就有差异的学生(戴海崎, 张锋, 2018)。

目前，学业能力倾向测验在许多西方国家的学校中得到了较为广泛的应用，在《心理测量年鉴第二十一版》(The twenty-first mental measurements yearbook)中，收录了3829种测验，其中智力测验和学业能力倾向测验(被归为一类)占比7.65%(293种)(Carlson et al., 2021)。国外常用的学业能力倾向测验有鉴别能力倾向测验(Differential Aptitude Tests, DAT)、学术能力评估考试(Scholastic Aptitude Test, SAT)、认知能力测试(Cognitive Ability Test, Cog AT)、奥蒂斯−莱农学校能力测试(Otis-Lennon School Ability Test, OLSAT)、一般能力倾向成套测验(General Aptitude Test Battery, GATB)等。学业能力倾向测验主要用于对学生学业问题的诊断与甄别以及专业选择、职业咨询等提供参考意见。

相较于国外，国内已有学业能力倾向测量工具的种类较少，相关测量工具主要有适用于小学毕业生的少年儿童学习能力测验，改编自澳大利亚教育学会制定的学习能力测验(Test of Learning Aptitude, TOLA)；另外，有少数测量工具来源于硕博士论文，其中张月娟和龚耀先(2004)编制了中学生学业能力倾向测验，但是数据结果表明该测验对于初中生而言项目难度较大，该测验更适用于高中生。郭靖和龚耀先(2005)编制了四−六年级学习能力倾向测验，主要测量小学4～6年级学生的语文、数理和空间能力。对已有的学业能力倾向测验进行梳理发现，目前国内对于学业能力倾向测量工具的研究较少，且缺少适用于初中生的学业能力倾向测量工具。而国家的相关政策和文件对科学、客观的中小学生学业能力倾向测量工具的编制提出了需求，如《国家中长期教育改革和发展规划纲要(2010—2020年)》提出：“关注学生不同特点和个性差异，发展每一个学生的优势潜能”；《教育部关于推进中小学教育质量综合评价改革的意见》(教基二〔2013〕2号)中，明确提出了要考查学生潜能发展等关键性指标。由此可知，对中学生的能力状况进行了解可以做到因材施教，发展学生的学习潜能以及为学生的分科、专业选择提供依据等日益受到国家和相关教育部门的重视，表明了亟需学业能力倾向测验这种科学的评估工具(张月娟, 龚耀先, 2004)。

附录

在国外众多成熟的能力倾向测验中，由Bennett等人编制的DAT是应用最为广泛的多元性向成套测验(郑日昌, 1986)。整套测验由8个分测验组成，即言语推理、数字推理、抽象推理、空间关系、文书速度和准确性、机械推理、拼写、语言应用，其中言语推理和数字推理相加的得分为学业能力，可以用来测量学生从课本和老师处学习的能力以及掌握学校课程知识的能力(Bennett et al., 1956)。一篇关于DAT的文献综述表明，该测量工具具有良好的信度和预测效度(Wang, 1993)。此外，一项三年的追踪研究结果也验证了该测量工具的可靠性(Doppelt & Bennett, 1951)。有研究者将DAT中的言语推理和数字推理作为预测变量对不同学段学生的学业成绩进行研究，如Anazi(2019)发现，言语推理和数字推理对高中生经济学学业表现有一定的预测力；Setiawati(2020)的研究结果发现，在心理学专业的大学生中，言语推理和数字推理可以预测其在学业上是否获得成功。另外，也有研究发现，虽然言语推理和数字推理都对学习者的学业成绩有显著预测作用，但是数字推理对学生学业成绩的预测力要显著大于言语推理(Santos & Boyon, 2020)。一项关于数字能力倾向的元分析发现，数字能力倾向显著影响印度高中生的数学成绩(Ridwan et al., 2023)。而在当代社会，数学知识对于个体在教育和经济上获得成功至关重要，如高中生的数学成绩可以预测大学的入学成绩、能否按时毕业以及毕业后的工资收入等(Siegler et al., 2012)。此外，Duncan等人(2007)发现儿童在数学知识上的差异比阅读和其他能力上的差异更稳定。综上可知，对于学生数字推理能力的测量是必要的、也是可行的。

考虑到数字推理主要测量个体执行数学推理任务的能力(Bennett et al., 1956)，对数学成绩和其他学科成绩具有显著的预测作用，且推理能力的发展是青少年思维发展的重要组成部分，体现了个体抽象思维的发展水平(王亚南, 刘昌, 2006)。鉴于此，本研究借鉴已有DAT中数字推理分测验这个测量工具，并以传统经典测量理论(CTT)和项目反应理论(IRT)为基础，着手编制适用于国内初中生的数字推理能力测验。

本研究首先以CTT为基础进行数字推理能力测验的编制和验证，考虑到有研究者指出，以CTT来评价测评工具存在被试和项目参数的样本依赖性、测量误差等权重性、被试的心理特质水平和项目难度的不可比性以及计分方式的非等距性等不足和缺陷(Chao et al., 2017)，随后，本研究使用IRT模型中最常用的Rasch模型来评估工具的有效性，Rasch模型以数据拟合模型的逻辑思维方式独树一帜，它将个体成功作答的概率作为被试的特质水平与条目难度之间差异的logistic函数，对有序的作答反应进行logits转换，将被试的潜在特质水平与条目难度放在同一尺度上进行比较，并以此来检验所构建的心理特质工具是否具有量的特性，很好地避免了CTT的缺陷(Bond & Fox, 2003)，而且还可以提供CTT无法提供的模型拟合指数。所以，除了探索性因素分析、验证性因素分析之外，本研究还使用了Rasch评定量表分析，它可以基于分析的结果估计参测被试的真实能力而不受被试群体的特征影响(Chae et al., 2018)。通过经典测量理论和项目反应理论对数字推理能力测验质量的分析，可以为教师、学校以及相关教育部门提供一个具有良好信效度的测量工具。

2 数字推理能力测验的编制

2.1 初始测验的编制

这里涉及到的数字推理(numerical reasoning)能力是指对数字关系和数字概念处理的能力(Mankar & Chavan, 2013)。本次数字推理能力测验的编制以DAT中数字推理能力的题目为参考，对DAT中的试题进行题型、题干、选项以及出题的意向进行分析，并以我国《义务教育数学课程标准》中对学生的数学能力要求为依据，再借鉴其他学习能力倾向测验中相关的试题，邀请5名一线初中数学教师以及心理测量学方向的3名博士一起编制本次的数字推理能力测验，试题经过一线数学教师和心理测量学博士的反复研读，并对有歧义的题干进行了修改，一共22道题，题型为单项选择题，一共4个选项，非对即错，采用0、1计分，示例：“一般地，若aⁿ = b，则log_ab = n。如3⁴ = 81，则log₃81 = 4。请计算log₂4 = ( )。”

2.2 被试选取与问卷回收

测验的编制及其信效度的验证过程中，共进行了两次测验的施测和回收。两次样本的信息如表1所示。样本一为预研究的样本，利用此样本进行项目分析和探索性因素分析。选取成都市某区县3所学校八年级学生作为本次测验的对象，共发放初测试卷330份，其中有9个学生因为请假未参加，有效回收率为97.3%；样本二为测验修订后验证性因素分析以及基于Rasch模型对测验的质量进行分析所用的样本。将经过项目分析和探索性因素分析之后保留下的18道题目施测于成都市某区县13个学校的7、8年级学生，共发放试卷7180份，回收7143份，有效回收率为99.5%。

表1 数字推理能力测验编制阶段样本信息

类型		样本一 (八年级)	样本二
类型		样本一 (八年级)	七年级	八年级
性别	男	155(48.3%)	1880(51.9%)	1795(51.0%)
性别	女	166(51.7%)	1743(48.1%)	1722(48.9%)
是否寄宿	走读	130(40.5%)	1739(48.0%)	1746(49.6%)
是否寄宿	寄宿	191(59.5%)	1874(51.7%)	1774(50.4%)
是否独生	独生子女	179(55.8%)	1690(46.6%)	1778(50.5%)
是否独生	非独生子女	142(44.2%)	1926(53.2%)	1735(49.3%)
样本总量		330	7180
有效样本量		321	7143
样本回收率		97.3%	99.5%

　　注：样本二中，七年级学生中有10人未填写是否寄宿，7人未填写是否是独生子女，八年级学生中有3人未填写性别，有7人未填写是否是独生子女。

2.3 施测过程

初测和正测都采用纸笔的形式进行集体施测。初测由受过统一培训的心理学专业学生担任主试，统一发放试卷，在主试讲解完指导语并发出“开始”命令之后，学生开始作答，作答时间为20分钟，时间到了之后停止作答，收回试卷。正测由受过统一培训的班主任担任主试，所有参测学生都是在自己的班级同一天上午完成作答，测试时长为15分钟，时间到了之后停止作答并收回试卷。

2.4 数据分析

首先，利用SPSS22.0进行项目分析、探索性因素分析以及信度、效标效度检验等，其中，项目分析部分删题的原则：(1)删除难度系数小于0.1或大于0.9的题目；(2)删除题总相关系数小于0.4的题目(吴明隆, 2010)。探索性因素分析中若第一因子特征根与第二因子特征根的比值接近或大于3，则说明该量表具有单维性(Hambleton & Swaminathan, 1985)。此外，平行分析的背后逻辑是：如果一个从真实数据中抽取的因子所解释的变异比从模拟的随机数据中抽取相应数量因子所解释的变异还要小，就应当舍弃(Reise et al., 2000)。

然后，利用Mplus8.0进行验证性因素分析，基于温忠麟等人(2004)的建议：比较拟合指数(comparative fit index, CFI)和Tucker-Lewis指数(Tucker-Lewis index, TLI)需大于0.90；标准化残差均方根(standardized root mean square residual, SRMR)和近似误差均方根(root mean square error of approximation, RMSEA)需小于0.08，达到上面的要求即表明模型和数据之间具有较好的拟合。

最后，使用Winsteps3.74做Rasch分析，包括单维性检验、项目难度、信度以及项目功能差异检验。其中，(1)单维结构的检验主要通过对残差进行主成分分析，只要首对残差的特征值之比不超过2.0(Raîche, 2005)，即可认为单维结构成立。另外，单维性检验还涉及到残差均方(outfit mean-square, Outfit MNSQ)、加权残差均方(infit mean-square, Infit MNSQ)和点测量相关系数。根据Wright和Linacre(1994)的建议：凡是MNSQ>1.4或<0.6时，即可以认为该项目的拟合效果较差。Li等人(2018)表明点测量相关系数大于0.3表明项目测量的是同一个结构。(2)Rasch分析中会给出项目信度、被试信度、项目分离指数以及被试分离指数。项目信度和被试信度类似于最小值为0、最大值为1的Cronbach’s α系数，被试信度指的是被试所拥有的潜在特质的内在一致性程度，项目信度指的是项目与潜在特质的内在一致性。被试分离指数是以logit为单位估计的，指的是在测量相同潜在特质的前提条件下，不会改变被试在潜在特质水平上的相对位置，即相应的高低顺序不会发生变化，并以此了解到这种排序的稳定程度有多大；项目分离指数指的是能有效区分开被试在潜在特质水平上的统计差异(Wright & Stone, 1999)。Malec等人(2007)表明项目和被试的信度指标遵循以下临界值：项目信度≥0.90，被试信度≥0.80，被试分离指数≥2.0，以及项目分离指数≥4.0。Fisher(2007)的评定量表工具质量标准认为被试的信度在0.70以上是可接受的，Duncan等人(2003)认为被试分离指数大于1.5小于2.0也是可以接受的。(3)为了确保测验的公平性，探索了数字推理能力测验在不同性别学生上的项目功能差异(differential item functioning, DIF)。采用显著性检验和效应量相结合的方法来进行鉴定：效应量需要大于0.64并且经Mantel-Haenzel卡方检验法之后存在统计显著性(p<0.05)，即认为该项目存在中等到大的项目功能差异，若只有p<0.05，但是项目功能差异差值小于0.64，亦可认为不存在项目功能差异(Boone et al., 2014)。

3 数字推理能力测验的结构探索与验证

3.1 项目分析

采用SPSS22.0对预测试数据进行项目分析。第一步，以每道题目的通过率为指标进行难度分析，删除难度系数小于0.1或大于0.9的题目，删除题目1道。第二步，采用同质性检验筛选题目。计算各题目得分与数字推理能力测验总分之间的Pearson相关系数，删除相关系数小于0.4的题目，共3道。第三步，利用决断值进行极端组检验，对高分组(总得分前27%)与低分组(总得分后27%)的被试数据进行独立样本t检验，剩下的18道题目均达到差异显著性要求(p<0.05)。经过项目分析，问卷剩余题目18道。

3.2 探索性因素分析

研究采用主成分分析法，以此确定测验的维度与相应题目。对剩下的18道题目进行探索性因素分析(EFA)。数据的KMO值为0.89，达到可接受水平；且Bartlett球形检验值为χ²/df=1037.50/153≈6.78，p<0.001，各项目间具有较好相关性。故数字推理能力测验适合进行探索性因素分析。探索性因素分析结果(见表2)发现，第一个因子的特征值4.69与第二个因子特征值1.32的比值为3.55，根据平行分析(见图1)，比较真实数据特征值的碎石图和一组随机矩阵的平均特征值的曲线，确定了数字推理能力测验应该提取1个因素，与预期一致，编制的数字推理能力测验为单维度结构，因子载荷为0.39～0.67。

表2 八年级学生数字推理能力测验探索性因素分析结果

题号	因子载荷	题号	因子载荷
Q1	0.51	Q10	0.40
Q2	0.41	Q11	0.39
Q3	0.49	Q12	0.56
Q4	0.58	Q13	0.50
Q5	0.55	Q14	0.54
Q6	0.62	Q15	0.53
Q7	0.67	Q16	0.43
Q8	0.56	Q17	0.46
Q9	0.46	Q18	0.42
第一因子特征值	4.69	第二因子特征值	1.32

显示原图|下载原图ZIP|生成PPT

图1 数字推理能力测验的平行分析

3.3 验证性因素分析

根据EFA的结果，将初定的测验在样本二群体中进行施测，对收集到的数据使用Mplus8.0进行验证性因素分析。通过模型的适配指数来判断该模型是否与观察数据拟合。结果显示，χ²=560.75，df=135，χ²/df=4.15，虽然χ²/df大于3，但是当样本量在1000以上时可以不用考虑卡方自由度之比，主要拟合指标，RMSEA=0.02，SRMR=0.02，均小于0.08，CFI=0.97，TLI=0.97，都在0.90以上，符合心理测量学的要求，表明测验具有较好的结构效度。

3.4 信度

对在样本二中施测的数字推理能力测验进行信度分析，发现内部一致性信度系数为0.78，Spearman-Brown分半信度系数为0.75，符合心理测量学的要求。

3.5 效标关联效度

3.5.1 测验分数的年级和性别差异分析

差异分析结果表明，七年级学生在数字推理能力上的得分显著低于八年级学生(t=−11.46, p<0.001)，且有中等大小的效应量(Cohen’s d=−0.27)；在性别上，男生与女生在数字推理上的得分没有统计学上的显著差异(t=0.77, p=0.44)。

3.5.2 与学业成绩的相关分析及回归分析

考虑到有研究发现数字推理是影响学生数学成绩的主要因素(Nizoloman, 2013)，但是也有研究发现数字推理对学生的学业成绩有显著的预测作用，不论是哪门课程(Santos & Boyon, 2020)。这次学业成绩选取的是与数字推理能力测验在同一时间段内进行施测的语文和数学测试成绩，其中七年级学生的测试科目为语文，八年级学生的测试科目为数学，语文和数学的试卷由一线教师依据《义务教育语文课程标准》、《义务教育数学课程标准》(2011版)及出题指南进行出题，保证了测量工具的信效度。所以本研究选择语文成绩作为七年级数字推理的效标，数学成绩作为八年级数字推理的效标。

对学生的数字推理和数学成绩、语文成绩分别进行了Pearson双相关分析发现，两者之间呈显著正相关，在七年级学生中，数字推理与语文成绩之间的相关系数为0.57；八年级学生的数字推理与数学成绩之间的相关系数为0.80。此外，这里将数字推理作为自变量，学业成绩作为因变量，是否寄宿和是否是独生子女这两个人口学变量进行哑变量处理，作为控制变量，进行线性回归分析。回归分析结果显示，在控制了是否寄宿和是否是独生子女这两个变量之后，数字推理可以解释并预测七年级语文成绩32.9%的变异量；数字推理可以解释并预测八年级数学成绩63.3%的变异量。

4 数字推理能力测验的质量分析：基于Rasch模型

4.1 单维性检验

在Rasch分析中，可同时检验信效度。效度可依据检查项目质量和计分标准是否符合单维结构来确认测验的内部结构。此次数字推理能力测验残差主成分的首对特征值之比为1.4，支持了测量工具的单维性。此外，由表3可知，所有18道题目的加权残差均方(Infit MNSQ)和残差均方(Outfit MNSQ)均落在0.7～1.3，可认为所有项目的拟合效果均良好，表明此次结果符合Rasch评定量表模型的要求。另外，表3中，所有项目的点测量相关系数均为正值且大于0.3，这表明18个项目中每个项目与其他17个项目均有着合理的联系，或者说有较高的一致性和同质性。综上，这些数据均为量表的单维性提供了证据。

表3 拟合度参数及点测量相关系数

题号	难度估计值	Infit MNSQ	Outfit MNSQ	点测量相关系数	题号	难度估计值	Infit MNSQ	Outfit MNSQ	点测量相关系数
Q1	−0.59	0.94	0.87	0.47	Q10	0.45	1.13	1.20	0.38
Q2	−1.27	0.97	0.90	0.40	Q11	0.09	1.09	1.11	0.40
Q3	−0.11	0.93	0.89	0.51	Q12	−1.33	0.89	0.76	0.45
Q4	0.29	0.96	0.96	0.50	Q13	0.61	1.07	1.10	0.43
Q5	−1.22	0.92	0.83	0.44	Q14	1.07	0.96	0.99	0.51
Q6	0.52	0.93	0.91	0.53	Q15	0.90	1.07	1.12	0.43
Q7	−0.47	0.85	0.75	0.54	Q16	0.48	1.03	1.05	0.46
Q8	−1.19	0.88	0.81	0.46	Q17	0.38	1.07	1.09	0.43
Q9	0.33	1.04	1.08	0.44	Q18	1.07	1.17	1.25	0.37

4.2 信度与分离指数

本次测验项目分离指数为27.06，项目信度为1.00。被试分离指数为1.66，被试信度为0.73。根据判定标准可知，项目和被试的信度指数都达到了临界值的要求，数字推理能力测验的信度和分离指数是符合心理测量学要求的。

4.3 项目难度

从表3中的项目估计值发现，各项目的难度分布在−1.33与1.07之间(平均难度设定为0)，图2表示被试的数字推理能力与项目难度的对应关系。结合表3难度估计值可知，参测学生的能力呈正态分布，数字推理能力测验的项目对于数字推理能力中等水平的被试提供的信息量最大，但不适用于用来评定数字推理能力水平特别高的被试。

显示原图|下载原图ZIP|生成PPT

图2 项目难度和被试数字推理能力分布

注：“#”代表50人；“.”代表1～49人；“more”表示高能力被试；“less”表示低能力被试；“rare”表示高难度项目；“frequent”表示低难度项目；“+M”表示项目难度均值；“M”表示被试能力均值；“S”表示离均值1个标准差；“T”表示离均值2个标准差。

4.4 性别的项目功能差异检验

从表4可知，即使有些项目的p<0.05，但是所有项目的效应量均小于0.64，所以没有项目在性别变量上存在显著的项目功能差异。

表4 性别的项目功能差异检验(n=7140)

题号	卡方值	p	效应量	题号	卡方值	p	效应量
Q1	18.11	0.00	−0.24	Q10	2.08	0.15	−0.08
Q2	0.23	0.63	0.00	Q11	2.47	0.12	−0.11
Q3	0.21	0.64	0.00	Q12	21.65	0.00	0.31
Q4	2.18	0.14	0.08	Q13	60.41	0.00	−0.44
Q5	9.44	0.00	−0.18	Q14	15.30	0.00	−0.22
Q6	1.41	0.24	0.06	Q15	3.70	0.05	0.11
Q7	15.55	0.00	0.22	Q16	1.32	0.25	−0.08
Q8	20.60	0.00	0.29	Q17	0.03	0.87	0.00
Q9	47.71	0.00	0.39	Q18	0.19	0.66	0.00

　　注：效应量的值是由男生的测量值减去女生的测量值所得，有3人未填写性别，因而进行了删除处理。

5 讨论

本次数字推理能力测验主要是参考美国学者Bennett等人编制的鉴别能力倾向测验中的数字推理分维度，在对原题的题型、题干、选项以及出题的意向进行分析之后，再根据我国课程标准对7～8年级学生数学能力的要求编制了适用于国内7～8年级学生的数字推理能力测验。在测验的编制和修订过程中，题目经过了多次修改和筛选，最终的测验由18道题目组成，经过探索性因素分析和验证性因素分析，证实了7～8年级学生数字推理能力测验是单一结构，这与预期假设是相一致的。此外，Rasch模型中单维性检验结果也表明7～8年级学生数字推理能力测验是单一维度。

在测量工具的信效度方面，数字推理能力测验的内部一致性信度系数为0.78，Spearman-Brown分半信度系数为0.75；另外，Rasch模型分析中的项目信度、被试信度、项目分离指数和被试分离指数结果都符合心理测量学的要求，说明该测验具有很好的一致性和稳定性。验证性因素分析结果表明模型的各项拟合指标均达到了测量学的标准，说明数字推理能力测验能够测出7～8年级学生在数字推理能力上的表现。前人研究表明数字推理能力可以显著预测学生的学业表现(语文、数学)(Santos & Boyon, 2020)，所以本研究以七年级学生的语文成绩和八年级学生的数学成绩为效标，差异分析发现，八年级学生在数字推理能力测验上的得分显著高于七年级学生，男女生在数字推理能力上的表现没有统计学上的显著差异；相关分析结果表明，在七年级学生中，数字推理与语文成绩之间的相关系数为0.57，八年级学生的数字推理与数学成绩之间的相关系数为0.80；在控制独生子女和是否寄宿变量之后，回归分析结果显示，数字推理可以解释并预测七年级语文成绩32.9%的变异量；数字推理可以解释并预测八年级数学成绩63.3%的变异量，这与先前研究一致，数字推理对于数学学科的预测力更大，说明数字推理能力是影响数学学业成绩的重要因素(Nizoloman, 2013)。以上结果皆为数字推理能力测验的效度提供了支持。

在测量工具的公平性方面，本研究对性别的项目功能差异进行了检验，这是Rasch模型所独有的一种检验方法，由于在传统经典测量理论下，无法区分同一试题对不同特征的群体是否具有相同的难度，性别的项目功能差异检验结果发现，数字推理能力测验的每一个题目均不存在显著的性别项目功能差异，表明数字推理能力测验对于男生、女生是公平的，他们属于同一个群体，不会因为题目的设置出现有利于某个性别群体作答的影响因素，如果不同性别的学生在数字推理上的表现出现差异，那是因为个体之间确实存在差异，不属于测量工具公平性的问题(罗照盛, 2012)。

由上可知，该测量工具可以与学生学业成绩结合使用，帮助一线教师甄别出数字推理能力与学业成绩不匹配的学生，综合分析原因，有针对性地提高学生的学业成绩。另外，可用于筛查数学学习困难儿童，了解其是否属于数字推理能力偏差或者数字推理能力不足导致的学习困难，在正确区分的基础上将其鉴别出来，从而及时给予干预和指导。

本研究的不足之处在于：第一，本研究仅选取了成都市某区县的学生作为被试，虽然结合参测区县的GDP以及参测学生的父母受教育程度和职业类型综合来看，该样本群体具有一定的代表性，可推广到其他省市，但是仍需要大规模的数据进一步验证。第二，在用Rasch模型检验数字推理能力测验的信效度以及难度时，发现题目不适合用来评定数字推理能力水平特别高的被试。这可能是由于测验的题目难度中等，对于高能力水平的学生来说，题目的难度较低。在后续研究中，可考虑增加难度较大的题目，以便于覆盖数字推理能力水平更高的被试。

6 结论

初中生数字推理能力测验具有良好的信效度，在性别上没有项目功能差异，可作为7～8年级学生数字推理能力的有效测量工具。

References

Publishing order | Descend order by publishing year | Descend order by cited within

戴海崎, 张锋. (2018). 心理与教育测量 (第4版). 广州: 暨南大学出版社.

郭靖, 龚耀先. 小学生(四-六年级)学习能力倾向测验的初步编制: 编制策略、条目分析和信度检验. 中国临床心理学杂志, 2005, 13 (2): 127- 130.

罗照盛. (2012). 项目反应理论基础. 北京: 北京师范大学出版集团.

王亚南, 刘昌. 加工速度、工作记忆与数字推理能力的发展. 心理科学, 2006, 29 (5): 1081- 1085.

温忠麟, 侯杰泰, 马什赫伯特. 结构方程模型检验: 拟合指数与卡方准则. 心理学报, 2004, 36 (2): 186- 194.

吴明隆. (2010). 问卷统计分析实务SPSS操作与应用. 重庆: 重庆大学出版社.

张月娟, 龚耀先. 中学生学业能力倾向测验的初步编制. 中国临床心理学杂志, 2004, 12 (1): 1- 5, 12.

郑日昌. 鉴别能力倾向测验简介. 应用心理学, 1986, (2): 42- 43.

Anazia, I. U. Quantitative and verbal aptitudes as predictors of senior secondary school students’ performance in economics. IAFOR Journal of Education, 2019, 7 (1): 7- 18.

DOI

Bennett, G. K., Seashore, H. G., & Wesman, A. G. The differential aptitude tests: An overview. Personnel & Guidance Journal, 1956, 35 (2): 81- 91.

Berk, L. (2000). Child development (5th ed., p. 776). Boston: Allyn & Bacon.

Bond, T. G., & Fox, C. M. Applying the Rasch model: Fundamental measurement in the human sciences. Journal of Educational Measurement, 2003, 40 (2): 185- 187.

DOI

Boone, W. J., Staver, J. R., & Yale, M. S. (2014). Rasch analysis in the human sciences (pp. 273–297). Dordrecht, Netherlands: Springer.

Carlson, J. F., Geisinger, K. F., & Jonson, J. L. (2021). The twenty-first mental measurements yearbook. Lincoln, NE: The Buros Center for Testing.

Chae, S., Park, E. Y., & Choi, Y. I. The psychometric properties of the Childhood Health Assessment Questionnaire (CHAQ) in children with cerebral palsy. BMC Neurology, 2018, 18 (1): 151.

DOI

Chao, R. C. L., Vidacovich, C., & Green, K. E. Rasch analysis of the Rosenberg Self-Esteem Scale with African Americans. Psychological Assessment, 2017, 29 (3): 329- 342.

DOI

Cohen, R. J., & Swerdlik, M. E. (2002). Psychological testing and assessment: An introduction to tests and measurement (5th ed.). New York: McGraw-Hill.

Doppelt, J. E., & Bennett, G. K. A longitudinal study of the differential aptitude tests. Educational and Psychological Measurement, 1951, 11 (2): 228- 237.

DOI

Duncan, G. J., Dowsett, C. J., Claessens, A., Magnuson, K., Huston, A. C., Klebanov, P., … Japel, C. School readiness and later achievement. Developmental Psychology, 2007, 43 (6): 1428- 1446.

DOI

Duncan, P. W., Bode, R. K., Lai, S. M., & Perera, S. Rasch analysis of a new stroke-specific outcome scale: The stroke impact scale. Archives of Physical Medicine and Rehabilitation, 2003, 84 (7): 950- 963.

DOI

Fisher, Jr. W. P. Rating scale instrument quality criteria. Rasch Measurement Transactions, 2007, 21, 1095.

Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Dordrecht, Netherlands: Springer.

Li, C. Y., Romero, S., Bonilha, H. S., Simpson, K. N., Simpson, A. N., Hong, I., & Velozo, C. A. Linking existing instruments to develop an activity of daily living item bank. Evaluation & the Health Professions, 2018, 41 (1): 25- 43.

Malec, J. F., Torsher, L. C., Dunn, W. F., Wiegmann, D. A., Arnold, J. J., Brown, D. A., & Phatak, V. The Mayo High Performance Teamwork Scale: Reliability and validity for evaluating key crew resource management skills. Simulation in Healthcare: The Journal of the Society for Simulation in Healthcare, 2007, 2 (1): 4- 10.

DOI

Mankar, J., & Chavan, D. Differential aptitude testing of youth. International Journal of Scientific and Research Publications, 2013, 3 (7): 1- 6.

Nizoloman, O. N. Relationship between mathematical ability and achievement in mathematics among female secondary school students in Bayelsa State Nigeria. Procedia-Social and Behavioral Sciences, 2013, 106, 2230- 2240.

DOI

Raîche, G. Critical eigenvalue sizes (variances) in standardized residual principal components analysis. Rasch Measurement Transactions, 2005, 19 (1): 1012.

Reber, A. S. (1995). The Penguin dictionary of psychology (2nd ed.). New York: Penguin Press.

Reise, S. P., Waller, N. G., & Comrey, A. L. Factor analysis and scale revision. Psychological Assessment, 2000, 12 (3): 287- 297.

DOI

Ridwan, M. R., Hadi, S., & Jailani, J. A meta-analysis of numerical aptitude’s effect on learning outcomes and mathematical ability. TEM Journal, 2023, 12 (1): 434- 444.

Santos, J. C. D., & Boyon, M. C. L. Numerical and verbal reasoning aptitudes as predictors of STEM students’ performance on limits and continuity. Educational Measurement and Evaluation Review, 2020, 11, 14- 24.

Setiawati, F. A. Aptitude test’s predictive ability for academic success in psychology student. Psychological Research and Intervention, 2020, 3 (1): 1- 12.

DOI

Siegler, R. S., Duncan, G. J., Davis-Kean, P. E., Duckworth, K., Claessens, A., Engel, M., … Chen, M. Early predictors of high school mathematics achievement. Psychological Science, 2012, 23 (7): 691- 697.

DOI

Wang, L. (1993). The differential aptitude test: A review and critique (Paper presentation). Austin, TX: Southwest Educational Research Association.

Wright, B. D., & Linacre, J. M. Reasonable mean-square fit value. Rasch Measurement Transactions, 1994, 8 (3): 370.

Wright, B. D., & Stone, M. H. (1999). Measurement essentials (2nd ed.). Wilmington, DE: Wide Range.

Options

Outlines

模态框（Modal）标题