1 引言
2 研究方法
2.1 被试
2.2 研究流程
2.3 试题题库
2.4 IRT模型
2.5 CAT算法
3 PMPU-CAT平台介绍
4 结果
4.1 研究1结果
表1 R平台中三种停止规则下的模拟结果 |
| 终止规则 | 题目使用数量(R) | MSE(R) | MR(R) | r(R & True) | |
| M | SD | ||||
| SE(θ)=0.30 | 14.17 | 1.91 | 0.30 | 0.91 | 0.96 |
| SE(θ)=0.50 | 4.15 | 0.70 | 0.47 | 0.78 | 0.88 |
| SE(θ)=0.70 | 2.01 | 0.13 | 0.61 | 0.63 | 0.79 |
注:MSE(R)表示R平台中被试能力估计标准误的平均值,MR(R)表示R平台中不同的标准误差对应的不同边际信度,r(R & True)表示R平台估计出的能力值和能力真值的相关。 |
表2 PMPU-CAT平台中三种停止规则下的模拟结果 |
| 终止规则 | 题目使用数量 (JAVA) | MSE(JAVA) | MR (JAVA) | r (JAVA & True) | r (R & JAVA) | |
| M | SD | |||||
| SE(θ)=0.30 | 15.04 | 1.97 | 0.30 | 0.91 | 0.96 | 0.98 |
| SE(θ)=0.50 | 4.59 | 0.67 | 0.48 | 0.77 | 0.88 | 0.94 |
| SE(θ)=0.70 | 2.16 | 0.37 | 0.65 | 0.58 | 0.76 | 0.82 |
注:MSE(JAVA)表示JAVA平台中被试能力估计标准误的平均值,MR(JAVA)表示PMPU-CAT平台中不同的标准误差对应的不同边际信度,r(JAVA & True)表示PMPU-CAT平台估计出的能力值和能力真值的相关,r(R & JAVA)表示R平台估计出的能力值和PMPU-CAT平台估计出的能力值的相关。 |
表3 两种平台在不同停止规则下的预测误差 |
| 终止规则 | MAE (R) | MAE (JAVA) | MSE (R) | MSE (JAVA) | RMSE (R) | RMSE (JAVA) |
| SE(θ)=0.30 | 0.24 | 0.24 | 0.09 | 0.09 | 0.30 | 0.30 |
| SE(θ)=0.50 | 0.38 | 0.38 | 0.23 | 0.23 | 0.48 | 0.48 |
| SE(θ)=0.70 | 0.49 | 0.52 | 0.38 | 0.43 | 0.61 | 0.65 |
4.2 研究2结果
表4 相同测验长度下两种测验方法的测量误差 |
| 测验方法 | 测验长度 | 测量误差 | |||
| M(SD) | SE降低百分比(%) | t | Cohen’s d | ||
| NMP-C | 16 | 0.34(0.06) | 11.8 | 19.19*** | 0.71 |
| PMPU-CAT | 16 | 0.30(0.04) | |||
| MPATS | 14 | 0.40(0.04) | 20.0 | 48.23*** | 1.77 |
| PMPU-CAT | 14 | 0.32(0.04) | |||
| SAPS | 7 | 0.55(0.02) | 23.6 | 75.20*** | 2.77 |
| PMPU-CAT | 7 | 0.42(0.05) | |||
| SPAI | 18 | 0.41(0.02) | 29.3 | 82.39*** | 3.03 |
| PMPU-CAT | 18 | 0.29(0.04) | |||
| SAS-C | 11 | 0.43(0.04) | 18.6 | 41.11*** | 1.51 |
| PMPU-CAT | 11 | 0.35(0.04) | |||
| SAS-CA | 14 | 0.36(0.04) | 11.1 | 25.47*** | 0.94 |
| PMPU-CAT | 14 | 0.32(0.04) | |||
| MPAS | 9 | 0.48(0.05) | 20.8 | 46.62*** | 1.72 |
| PMPU-CAT | 9 | 0.38(0.05) | |||
注:***p<0.001,以下同。 |
表5 相同测验长度下两种测验方法的测量信度 |
| 测验方法 | 测验长度 | 测量信度 | |||
| M(SD) | MR增加百分比(%) | t | Cohen’s d | ||
| NMP-C | 16 | 0.88(0.04) | 3.4 | 17.48*** | 0.64 |
| PMPU-CAT | 16 | 0.91(0.03) | |||
| MPATS | 14 | 0.84(0.03) | 7.1 | 44.51*** | 1.64 |
| PMPU-CAT | 14 | 0.90(0.03) | |||
| SAPS | 7 | 0.69(0.02) | 18.8 | 74.00*** | 2.72 |
| PMPU-CAT | 7 | 0.82(0.05) | |||
| SPAI | 18 | 0.83(0.02) | 9.6 | 84.96*** | 3.13 |
| PMPU-CAT | 18 | 0.91(0.03) | |||
| SAS-C | 11 | 0.82(0.03) | 6.1 | 37.49*** | 1.38 |
| PMPU-CAT | 11 | 0.87(0.04) | |||
| SAS-CA | 14 | 0.87(0.03) | 3.4 | 22.29*** | 0.82 |
| PMPU-CAT | 14 | 0.90(0.03) | |||
| MPAS | 9 | 0.76(0.04) | 11.8 | 42.87*** | 1.58 |
| PMPU-CAT | 9 | 0.85(0.04) | |||
表6 基于P&P PMPU测试的七个停止规则下的模拟结果 |
| 精度 | P&P PMPU长度 | PMPU-CAT长度 |
| SE(NMP-C)=0.34 | 16.00 | 13.00 |
| SE(MPATS)=0.40 | 14.00 | 8.44 |
| SE(SAPS)=0.55 | 7.00 | 4.19 |
| SE(SPAI)=0.41 | 18.00 | 8.02 |
| SE(SAS-C)=0.43 | 11.00 | 7.15 |
| SE(SAS-CA)=0.36 | 14.00 | 11.05 |
| SE(MPAS)=0.48 | 9.00 | 5.62 |
5 讨论
表7 PMPU-CAT平台与其他评估平台的多维度性能对比 |
| 维度 | PMPU-CAT平台 | R平台(catR包) | 传统P&P测验(如SAS-C) |
| 技术实现语言 | 纯JAVA开发 | R语言为主 | 无 |
| 部署复杂度 | 单一语言,部署简单,兼容性强 | 需R环境支持 | 无需技术部署 |
| 计算依赖 | 不依赖外部统计软件 | 依赖R环境 | 无 |
| 测量精度(SE/MR) | 高(SE=0.43时,MR=0.82);可通过设置SE控制测验精度 | 与PMPU-CAT接近 | 较高(SE>0.35) |
| 测验效率(平均题量) | 高(SE=0.43时,仅需7题) | 与PMPU-CAT接近 | 固定(SAS-C 11题,SE=0.43) |
| 自适应算法 | MFI选题+EAP估计+SE终止 | 支持同类算法 | 无自适应机制 |
| 题库支持 | PMPU题库(89题,GRM模型) | 支持 | 一般为单一量表 |
| 应用场景 | 适合大规模、高效率筛查 | 适合模拟研究 | 小规模施测 |
