Assessing the Reliability of Statistical Learning Measures: Effects of Modality, Material, and Task

Wenbo YU; Hetong QI; Tianlin WANG; Dandan LIANG

doi:10.12139/j.1672-0628.2024.06.013

Studies of Psychology and Behavior >

2024 , Vol. 22 >Issue 6: 814 - 821

DOI: https://doi.org/10.12139/j.1672-0628.2024.06.013

Assessing the Reliability of Statistical Learning Measures: Effects of Modality, Material, and Task

Wenbo YU ¹ ,
Hetong QI ¹ ,
Tianlin WANG ² ,
Dandan LIANG ^,*^,¹^,³

Expand

1. School of Chinese Language and Culture, Nanjing Normal University, Nanjing 210097
2. School of Education, University at Albany, State University of New York, Albany 12222, United States of America
3. Interdisciplinary Research Center for Linguistic Science, University of Science and Technology of China, Hefei 230026

Received date: 2024-09-29

Online published: 2025-03-29

Copyright

Fold

Abstract

Statistical learning (SL) ability is often examined as an independent variable in predicting individual language development. However, traditional experimental tasks designed to assess group differences typically exhibit low reliability, failing to meet basic psychometric standards. This study aimed to address these limitations by synthesizing learning materials with mixed-length target structures and utilizing two testing tasks: a two-alternative forced-choice task and a familiarity rating task. Additionally, the study incorporated auditory speech and visual graphic modalities, calculating the reliability of the tasks using Cronbach’s alpha and split-half reliability. The results showed that experimental tasks utilizing mixed-length target structures demonstrated higher reliability compared to previous studies. Notably, tasks in the visual modality showed greater reliability than those in the auditory modality, and the forced-choice task yielded higher reliability than the familiarity rating task. These findings highlight the advantages of using mixed-length learning materials and visual stimuli when assessing SL ability.

Key words： statistical learning ability; reliability; two-alternative forced choice task; familiarity rating task

Cite this article

Wenbo YU , Hetong QI , Tianlin WANG , Dandan LIANG . Assessing the Reliability of Statistical Learning Measures: Effects of Modality, Material, and Task[J]. Studies of Psychology and Behavior, 2024 , 22(6) : 814 -821 . DOI: 10.12139/j.1672-0628.2024.06.013

1 引言

以基本认知能力作为自变量预测其他高级认知能力是心理学中一个常见的研究思路，随着对研究技术和研究方法要求的提高，学界越来越关注实验范式(任务)的科学性和测量的准确性，已有研究者指出使用传统认知实验对某项认知能力进行测量时，信度往往不高，难以满足心理测量学对信效度的要求(Hedge et al., 2018)。在语言心理学领域，统计学习能力被认为是和口语词切分、词汇语义习得等语言习得过程密切相关的一项基本认知能力(徐贵平等, 2020; Bogaerts et al., 2020; Estes et al., 2007; Estes et al., 2015; Newport, 2016; Saffran & Kirkham, 2018; Siegelman, 2020)。传统的统计学习测验范式在设计时是以组间差异视角为出发点的，关注的是因变量的组平均值是否高于某一个标准(如单样本t检验)或某几个被试组的组平均值是否有显著差异(如独立样本t检验)，这一类范式在应用到个体差异视角(如回归或相关)的研究时，就会出现测验信度不高、对能力评估不稳定的问题，进而导致一些研究发现了统计学习能力能够预测语言发展的水平，一些研究则发现二者之间没有显著关系的现象(Lammertink et al., 2020)。在统计学习领域，已有几篇文章从信效度角度出发，探讨以传统统计学习任务结果为自变量预测语言发展水平的可靠性问题(Siegelman, Bogaerts, Elazar, et al., 2018; Siegelman et al., 2017)。本研究从测验的信度出发，对传统测量方式进行修改，并验证其有效性，一方面希望对统计学习能力的评估提供帮助，另一方面希望学界更加关注认知实验的信效度问题。

统计学习指个体能够从外界输入的时间信息和空间信息中发现统计规律并以此学习新事物的过程(于文勃, 王璐, 程幸悦等, 2021; 于文勃, 王璐, 瞿邢芳等, 2021; Frost et al., 2019; Isbilen & Christiansen, 2022; Saffran et al., 1996)，最经典的统计学习任务来自于Saffran等的研究，采用的是学习−测试范式，学习材料由4个等长度的目标词(如图1所示，每个目标词由三个音节组成，每个大写字母代表一个音节)按照伪随机的方式拼接而成，每个目标词在学习材料中出现45次。测试阶段，主试分别向被试播放目标词和跨界词，通过对比被试的注意时间来判断是否实现了统计学习。后续针对幼儿和成人的实验沿用了学习阶段的材料，在测试阶段多使用迫选任务(Isbilen & Christiansen, 2022)，其中每个试次包括一个目标词和一个跨界词(如CJK)或非词(如BHE)，要求被试选择出组成学习材料的基本单位。由于跨界词是两个目标词之间的转换之处，因此是词边界，记忆效果不强；而目标词内部的音节始终相连，音节组合关系更加紧密，记忆效果也就相对牢固。在统计实验结果时，如果被试组别的迫选正确率显著高于0.5，那么就认为出现了学习效应。

显示原图|下载原图ZIP|生成PPT

图1 语音统计学习材料示意图

近年来，学界在个体差异研究视角下，开始将被试迫选任务中的正确率作为统计学习能力的指标，进而预测典型发展儿童的语言发展和解释多种障碍儿童的语言异常表现(Erickson et al., 2016; Isbilen et al., 2022; Kidd & Arciuli, 2016; Kidd et al., 2020; von Koss Torkildsen, 2019)。虽然这一个体差异视角下的研究得到了不少显著的结论，但依托组间差异视角的实验任务信度较低，本研究总结了部分统计学习任务的信度结果(见表1)，可以看到大多数都难以满足心理测量学对能力测量信度的最低标准：0.80(Nunnally & Bernstein, 1994)。Siegelman等(2017)提出组间差异视角研究范式面临两个问题：(1)测试任务中试次太少(通常为16个)；(2)测试阶段始终使用跨界词和目标词进行配对比较，难度一致。这两个因素共同导致被试得分的变异较小，依托于相关分析而得到的测验信度也就较低。此外，迫选任务中为了平衡顺序效应，同一个选项(包括目标结构和跨界结构)还要多次出现，不仅降低了敏感性，还会对信度产生影响。一些统计学习研究在实验任务中也会报告内部一致性系数，但很少见到系统比较不同模态、不同任务下信度指标差异的研究，学界更是没有一个针对统计学习能力相对完善的测验方案。Arnon(2020)使用经典的实验范式，分别计算了成人和儿童完成多种统计学习任务的信度指标，发现成人被试的信度指标达到中等程度，但儿童被试的信度很低，和心理测量学的要求相距甚远。Siegelman等则对以往视觉统计学习任务进行修改，虽然信度指标得到大幅提升，但测验时长大大增加，还包括了多种试题形式，不利于在婴幼儿和障碍儿童身上使用。

表1 部分统计学习实验的信度

作者	模态	试次数	样本量	α系数	分半信度	重测信度
Siegelman & Frost, 2015	视觉	32	76			0.58
Siegelman et al., 2017	视觉	42	62	0.88	0.72～0.90
Siegelman, Bogaerts, Kronenfeld, & Frost, 2018	语音	42	55	0.42
Siegelman, Bogaerts, Kronenfeld, & Frost, 2018	视觉	36	200	0.84
Siegelman, Bogaerts, Kronenfeld, & Frost, 2018	视觉	36	200	0.78
Siegelman, Bogaerts, Kronenfeld, & Frost, 2018	语音	36	200	0.54
Siegelman, Bogaerts, Kronenfeld, & Frost, 2018	语音	36	200	0.59
Tong et al., 2019	视觉	32	35	0.56
Arnon, 2020	语音	25	52	0.57	0.18～0.63	0.61
Arnon, 2020	视觉	25	52	0.83	0.55～0.83	0.45
Kidd et al., 2020	语音	32	37	−0.04
Kidd et al., 2020	语音	32	37	−0.05
van Witteloostuijn et al., 2021	视觉	24	50		0.50～0.80
van Witteloostuijn et al., 2021	视觉	16	50		0.67～0.85

除了以上两个问题以外，还有研究指出统计学习过于理想化的前提也是影响信度的一个因素。统计学习以“白板假说”为前提(Elazar et al., 2022)，假设被试在学习任务前未接触过人工语言，测试阶段所表现出的学习效应均来自于学习阶段。但事实上，语音统计学习中学习的音节(组合)在被试的母语中存留痕迹，每一个被试的语言经验不同，对迫选试次的判断也就存在异质性，测验的内部一致性系数自然会较低。目前来看，以音节为材料的统计学习研究最多，但也存在其他材料，如音调(Saffran et al., 1999)、声音(Siegelman, Bogaerts, Elazar, et al., 2018)和图形(Siegelman, Bogaerts, Kronenfeld, & Frost, 2018)，详见元分析文章Frost等(2019)。一些研究认为视觉图形不容易受到被试经验的影响，也更容易满足“白板假说”，信度更高，更应该作为统计学习能力的测量任务(Siegelman, Bogaerts, Elazar, et al., 2018)。

基于以上分析可以看出，统计学习能力的测量陷入困境，制约了探讨统计学习和语言能力关系的研究。本研究主要从试次的难度差异、测验任务和材料模态等方面对传统实验任务进行改进。第一，不同于以往研究使用等长度的目标结构合成学习材料，本研究以不同长度的目标结构合成学习材料，不同长度的目标结构会对应不同的转换概率和记忆表征，可以丰富试次的难度差异，提高被试得分的变异；而且还可以避免被试产生节奏期待夸大实验效应(Hoch et al., 2013)。第二，近年来一些研究者使用熟悉度评分任务作为统计学习能力的测试任务(Batterink et al., 2015)，即要求被试对目标结构、跨界结构和非结构的熟悉程度进行评分，这一任务可以避免同样的选项在迫选试次中反复出现而降低试次的敏感性，本研究也将检验熟悉度评分任务的信度指标，为测量任务提供备选。第三，本研究还分别设计了视觉和听觉模态的任务，以进行不同模态下的比较。综上，本研究旨在找到一个更为有效的统计学习能力测评方案。首先，通过修改材料特征和使用熟悉度评分测试两种方式获得被试得分的更大变异性；同时依据“白板假说”设置了视觉图形模态的任务。本研究预期测验的信度会得到明显提升，尤其是在使用熟悉度评分任务的视觉图形模态下。考虑到被试量、实验任务复杂程度等因素，本研究并未在材料特征这一变量中设置等长度目标结构的水平，而是全部以混合长度目标结构合成人工语言。在统计检验过程中，本研究未使用如t检验等参数检验，而是使用类似元分析的方式，主要对比八个测验和以往研究测验(表1)的信度差异，并以此判断测验方案的优劣。

2 研究方法

2.1 被试

共有159名被试参与实验，男性被试47名，被试年龄范围18～27岁，所有被试母语均为汉语普通话。参加听觉语音学习材料A的被试41人，学习材料B的被试39人；参加视觉图形学习材料A的被试40人，学习材料B的39人。实验前，被试签署知情同意书，实验结束后被试获取少量报酬，本研究经过南京师范大学校伦理委员会审查(NNU2022060023和NNU202302010)。

2.2 实验设计

本研究仍旧采用学习−测试范式，实验设计是2(模态：视觉图形、听觉语音)×2(测试任务：熟悉度评分任务、迫选任务)×2(对照材料：学习材料A、学习材料B)的三因素混合实验设计；其中，模态和对照材料是被试间变量，对照材料中的学习材料A的目标结构是学习材料B的跨界结构，反之，学习材料B的目标结构是学习材料A的跨界结构，这一设置可以保证实验效应不是来自于特殊的材料组合。测试任务是被试内变量。被试随机分配到四个被试间水平中，一半被试先完成熟悉度评分任务，一半被试先完成迫选任务，从而平衡测试任务的顺序效应。本研究的因变量为测验任务的信度，包括内部一致性系数(Cronbach’s α系数)和分半信度。

2.3 实验材料和实验程序

2.3.1 听觉语音材料

学习材料的编制参考于文勃、王璐、瞿邢芳等(2021)的研究。在汉语普通话音节库中选择符合发音规则的10个音节，包括CV(C代表辅音，V代表元音)和CVV两种形式，这两种音节形式是普通话中最常见的结构。为了避免声调承载的统计信息影响结果，所有音节均为第一声，而且这10个音节没有对应的汉字，尽量避免被试进行联想。由一名女性普通话母语者在专业录音室进行录音，采样率为44100 Hz。通过将目标音节放置在两个音节之间来排除录音人对目标音节的重度或明显的停顿，例如录音人一次性产出音节串nve1-ruo1-gei1，其中只有ruo1为目标音节。随后通过Praat软件分离目标音节，并对其持续时间(300 ms)、平均音高(266 Hz)和强度(70 dB)进行归一化(http://www.praat.org/)。使用10个音节随机组合成两组无意义的目标词，分别为两个两音节目标词和两个三音节目标词，通过Praat脚本合成学习材料A和学习材料B，要求同一个目标词不能连续出现两次，而且其后出现其他词语的可能性相等(1/3)。学习材料A和B 中每个目标词重复出现120次，总计480个词，呈现时长为6分钟。

在迫选任务中，每个目标词和两个跨界词进行迫选，一半的试次中目标词先出现，另一半中跨界词先出现，以此来平衡顺序效应。同时，在每个迫选试次中，目标词和跨界词的长度相等以避免词长对被试的选择产生影响。另外，三音节迫选对和两音节迫选对各8个，共计16个试次。在熟悉度评分任务中，被试对目标词、跨界词和非词的熟悉程度进行七点评分。两个测试任务试次的呈现顺序均为随机。三类词具体如表2所示。

表2 语音音节任务的三类词材料

学习材料版本	目标词	跨界词	非词
语音学习材料A	nueruote	tediafo	nuemeilai
	diafolai	lainueruo	diasete
	remei	meirou	refo
	rouse	sere	rouruo
语音学习材料B	tediafo	diafolai	terouruo
	lainueruo	nueruote	lairefo
	meirou	rouse	meinue
	sere	remei	sedia

2.3.2 视觉图形材料

图形材料的选择参考Siegelman，Bogaerts，Kronenfeld和Frost(2018)的研究，选择10个无意义图形组成学习材料。为了保证获得稳定的学习效应，学习阶段中每个图形呈现800 ms，随后出现100 ms的空白，接着出现下一个图形，即SOA为900 ms。视觉图形材料编制的原则同听觉语音模态一致，每个目标图形组合呈现28次，迫选任务和熟悉度评分任务的设计也和音节任务保持一致，无论是目标结构、跨界结构还是非结构都是以一个整体呈现在电脑屏幕上，要求被试进行迫选或评分，三类图形组合如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 视觉图形任务的三类图形材料

2.3.3 实验程序

实验程序由E-Prime 3.0呈现，听觉语音条件下被试佩戴耳机完成，电脑音量固定为30%。两种模态下实验程序都包括练习实验和正式实验，练习实验前由主试讲解实验要求和指导语，学习阶段播放5秒钟的学习材料，随后完成迫选任务和熟悉度评分任务。练习实验中的材料在正式实验中不会出现。语音模态下实验任务大约需要15分钟完成，视觉图形任务大约需要10分钟。实验流程如图3所示。实验材料、数据和代码见：https://github.com/wenboyu0803/reliability-of-SL。

显示原图|下载原图ZIP|生成PPT

图3 实验流程图

3 结果

采用R 4.3.1对数据进行分析，Cronbach’s α系数和分半信度均使用psych包中的reliability函数进行计算，数据结果见表3。

表3 Cronbach’s α系数和分半信度结果

模态	听觉语音模态				视觉图形模态
测试任务	熟悉度评分任务		迫选任务		熟悉度评分任务		迫选任务
对照材料	A	B	A	B	A	B	A	B
α系数	0.66	0.75	0.65	0.68	0.72	0.74	0.86	0.74
分半信度	0.41～0.82	0.59～0.91	0.20～0.90	0.33～0.89	0.56～0.86	0.40～0.88	0.59～0.97	0.38～0.94

本研究测验任务的信度指标和其他研究结果的关系如图4所示，可以看出以混合长度目标结构合成的统计学习任务，信度指标和以往研究相当或更好。此外，本研究还统计了被试在所有任务上的学习效应。结果发现，在听觉模态下的迫选任务中，被试的正确率显著高于随机水平[t(79)=5.18, p<0.001, 95%CI=[0.07, 0.16], d=0.58]；同时，熟悉度评分任务中，被试对目标词的评分显著高于跨界词[t(79)=4.57, p<0.001, 95%CI=[0.33, 0.84], d=0.51]，对目标词的评分显著高于非词[t(79)=10.64, p<0.001, 95%CI=[1.25, 1.83], d=1.54]。在视觉图形模态下的迫选任务中，被试的正确率显著高于随机水平[t(73)=5.93, p<0.001, 95%CI=[0.10, 0.20], d=0.68]；同时，熟悉度评分任务中，被试对目标结构的评分显著高于跨界结构[t(76)=6.58, p<0.001, 95%CI=[0.84, 1.57], d=1.20]，对目标结构的评分也显著高于非结构[t(76)=12.77, p<0.001, 95%CI=[2.29, 3.14], d=2.72]。这些结果一致说明被试在本研究的多个实验任务中都表现出了稳定的学习效应。最后，本研究还发现被试的熟悉度评分任务和迫选任务的结果存在相关性，听觉语音模态下，两种任务被试得分的相关系数r=0.46，p<0.001，95%CI=[0.25, 0.61]，视觉图形模态下，两种任务被试得分的相关系数r = 0.45，p<0.001，95%CI=[0.23, 0.61]。

显示原图|下载原图ZIP|生成PPT

图4 统计学习能力测验信度汇总

4 讨论

在探讨统计学习能力和个体语言发展的关系时，尤其要关注统计学习能力的评估方式，以往研究的信度指标不够理想，引起了很多争论和探讨。本研究在学习材料上使用了混合长度的目标结构，并且对比了迫选任务和熟悉度评分任务的信度结果；最后，本研究还纳入了视听模态的对比。结果发现，视觉模态下统计学习测验的内部一致性系数较高，基本达到心理测量学的要求，同时分半信度区间也更为理想，尤其是迫选任务的信度指标好于熟悉度评分任务。

4.1 混合长度学习材料对信度的影响

以听觉语音模态为例，本研究在听觉语音模态中使用三音节和两音节目标词合成学习材料，在视觉图形模态中使用三连图形和两连图形合成学习材料。依据统计学习的记忆组块机制(Isbilen et al., 2020; Perruchet, 2019)，被试在测试任务中根据学习阶段的记忆表征进行选择，三音节目标词和三音节跨界词有共同的音节组合，同时仅在一个跨界处有明显的词边界特征，因此记忆表征强度差异较小，被试选择难度较大；相反，两音节目标词和两音节跨界词没有共同的音节组合，且只在一个跨界处有词边界特征，记忆表征差异较大，被试选择时难度也较小。所以，以混合长度目标结构合成学习材料时，迫选任务的难度梯度更细致。在熟悉度评分任务中由于添加了非词结构，试次包括三(两)音节目标词结构、三(两)音节跨界词结构和三(两)音节非词结构，非词结构在学习阶段没有出现过，是最容易判断的试次，因此，熟悉度评分任务中试次难度差异更大，也更容易获得变异较大的得分。实验的信度指标也符合预期，无论使用熟悉度评分任务还是迫选任务，混合长度下统计学习任务的测验信度都与以往研究持平或更高。

4.2 学习材料模态对信度的影响

以Cronbach’s α系数为信度指标时，视觉图形模态下的统计学习任务信度均高于0.70，尤其以迫选任务作为测验任务时，信度达到0.86和0.74，(基本)符合心理测量学的标准(Nunnally & Bernstein, 1994)；相反，听觉语音模态下的测验信度不高，有三个条件都低于0.70。在计算分半信度时，本研究只报告了区间，不过即便这样，视觉模态下信度的上限和下限都高于语音模态，而且变异范围更窄，所以使用视觉材料有助于提高统计学习任务的信度。本研究的结果和Siegelman，Bogaerts，Elazar等(2018)的观点一致：相比于语音材料，视觉统计学习较少受到被试个体语言经验的影响，被试间的判断一致性更高。Siegelman等(2017)，以及Siegelman，Bogaerts，Elazar等修订的视觉任务中，学习阶段每个目标结构只呈现24次，测试阶段被试需要完成42个试次，包括熟悉度评分和图形补全两类任务，同时干扰选项也更多。他们研究中视觉任务的Cronbach’s α系数分别为0.84和0.78，和本研究基本一致。但在本研究中，仍旧使用了较为常见的二选一迫选任务，试次数也只有16个。考虑到统计学习任务很多时候会应用在儿童被试身上，所以实验任务是否简短、有效也是测验的一个重要指标。相对来说，本研究的任务兼顾了测量学要求和实验效益，也更可能应用到幼儿和儿童研究中。

虽然个别研究指出听觉统计学习能力能够预测个体的阅读技能或解释阅读障碍儿童的障碍表现(Gabay et al., 2015; Qi et al., 2019)，但在这一领域中，大多数研究仍旧使用视觉材料作为统计学习材料(Lee et al., 2022; Tong et al., 2019)，尤其是从学理上来说，视觉图形和汉字这种象形文字会有更大的关联。本研究则发现以视觉图形作为学习材料对统计学习能力的评估更为稳定，这一结果将进一步推动统计学习能力和汉语儿童阅读技能关系的研究。尤其是在普通话背景下，符合发音规则但无意义的音节很少，以第一声为例仅有20个左右，这也给语音统计学习任务的材料编制带来很大困扰。因此，结合心理测量学的要求和实验材料的可操作性，更推荐使用视觉模态任务作为统计学习能力的考察方式。最后，本研究还计算了不同模态内部迫选任务和熟悉度评分任务成绩的相关性。从结果来看，模态内部测验成绩存在显著相关，语音模态内的相关性已经得到很多研究的支持(Erickson et al., 2016)，但视觉模态下不同任务的相关性研究鲜有见到，未来还需要更多的研究进行深入探讨。

4.3 测验任务类型对测验信度的影响

本研究除了使用迫选任务外，还使用了熟悉度评分任务作为统计学习的测试任务，这是因为迫选任务中为了平衡选项出现的顺序，每个选项都要重复出现多次，所以迫选任务的结果包含了被试在学习阶段的学习效应和迫选过程中的二次学习效应，这一平衡策略会降低测验的敏感性。不过，结果显示在视觉图形模态下，熟悉度评分任务的Cronbach’s α系数普遍低于迫选任务，分半信度的区间也要更大，因此从心理测量学角度来看，迫选任务是对统计学习能力评估的更好方式。

4.4 不足和展望

本研究有一些不足之处。关于测验形式的问题上，一些研究从构想效度的角度对不同测验任务所考察的内容进行分析，认为迫选任务和熟悉度评分任务都属于反思类任务，不仅考察了个体捕捉统计信息的能力，还包括了元认知的能力(Isbilen & Christiansen, 2022; Ordin & Polyanskaya, 2021)，所测量的统计学习能力并不纯粹，后续研究应该从更多方面衡量不同的实验任务。关于学习材料的设置细节上，被试的学习效应不仅受到学习材料概率信息的影响，还和材料的呈现时长、呈现次数有关(Bogaerts et al., 2016)。未来研究如果以婴幼儿为目标被试，还应该考虑这些因素的影响。

5 结论

为满足心理测量学的基本要求，本研究对统计学习能力的测量方案进行修改，发现在视觉图形模态下，使用混合长度的目标结构合成学习材料，以迫选任务作为测验任务的组合方式，能够获得较为稳定的信度指标。

References

Publishing order | Descend order by publishing year | Descend order by cited within

徐贵平, 范若琳, 金花. 统计学习的认知神经机制及其与语言的关系. 心理科学进展, 2020, 28 (9): 1525- 1538.

于文勃, 王璐, 程幸悦, 王天琳, 张晶晶, 梁丹丹. 语言经验对概率词切分的影响. 心理科学进展, 2021, 29 (5): 787- 795.

于文勃, 王璐, 瞿邢芳, 王天琳, 张晶晶, 梁丹丹. 转换概率和词长期待对语音统计学习的影响. 心理学报, 2021, 53 (6): 565- 574.

Arnon, I. Do current statistical learning tasks capture stable individual differences in children? An investigation of task reliability across modality. Behavior Research Methods, 2020, 52 (1): 68- 81.

模态框（Modal）标题

Abstract

Cite this article

1 引言

图1 语音统计学习材料示意图

表1 部分统计学习实验的信度

2 研究方法

2.1 被试

2.2 实验设计

2.3 实验材料和实验程序

2.3.1 听觉语音材料

表2 语音音节任务的三类词材料

2.3.2 视觉图形材料

图2 视觉图形任务的三类图形材料

2.3.3 实验程序

图3 实验流程图

3 结果

表3 Cronbach’s α系数和分半信度结果

图4 统计学习能力测验信度汇总

4 讨论

4.1 混合长度学习材料对信度的影响

4.2 学习材料模态对信度的影响

4.3 测验任务类型对测验信度的影响

4.4 不足和展望

5 结论

References