Theoretical Model and Quantitative Assessment of Scientific Thinking and Reasoning
科学思维的理论模型与量化评估
B. iSTAR的有效性评估
在教育研究中,效度证据的典型形式包括内容效度、标准效度和结构效度[77, 78]。内容效度是通过保证评估内容充分、恰当地覆盖目标内容来建立,可以由该领域的一组专家进行定性判断,并根据专家级应试者的回答进行定量评估。标准效度是检验新测评工具与已建立的类似测评工具之间的一致性,通常根据两个测试之间的相关性进行评估。结构效度是指一个测验实际测到所要测量的认知理论框架中设定的目标能力或潜在特质的程度。iSTAR这个测试中,能力结构包括iSTAR评估框架中定义的COV、DA和CDM三个技能维度。可以通过多种方法建立结构效度,例如传统的因子分析方法[79, 78]和基于Rasch模型的方法[77, 80]。在本研究中,将使用Rasch模型分析。
B.1 iSTAR的内容有效性
在开发过程中,iSTAR中的所有项目都经过了一个由科学教育研究人员和教师组成的专家团队检验评估。试测的过程中还对学生进行访谈,以收集他们解题的思维过程的详细信息。专家组在小组会议上对访谈结果和题目设计进行评估,分析学生的理解情况并完善问题设计。这个开发过程经历了大量的试验和修订周期,直到专家团队中的所有研究人员一致认为该测试经过适当和有效地设计,达到了探测特定科学思维技能的目标。
作为内容效度评估的一部分,来自同一所中西部大学的另一组30名研究生被用作外部专家组,以检查他们的答案是否与iSTAR问题的预期设计一致。这个小组由物理学专业三年级或四年级的博士研究生构成。他们在iSTAR及其子技能上的分数如图14所示,并与本科生的分数一起比较,后者数据取自表4。
图14. 研究生和本科生在iSTAR及其子技能上的分数。 误差线反映标准误差。
如图14所示,研究生和本科生的子技能相对难度趋势相似,研究生的分数达到了上限。结果表明,专家级学生对子技能的理解与设计团队的理解一致。本科生和研究生之间的成绩差异进一步表明,随着学习的进展,学生在子技能上的能力趋向于专家状态。因此,图14中的结果可以提供额外的定量证据来证明iSTAR的内容有效性。