Theoretical Model and Quantitative Assessment of Scientific Thinking and Reasoning
科学思维的理论模型与量化评估

B.3 iSTAR的结构有效性

      如前所述,iSTAR测试设计了COV、DA和CDM的三个领域的思维技能并假设该设计具有从COV→DA→CDM维度难度递增的进阶。结构效度的评估将重点分析iSTAR数据是否揭示了一个三维结构,以及三类思维技能的难度级别是否遵循研究所设计的进阶。

      首先,通过与一维构造模型进行比较,对iSTAR的三维构造模型进行检验。 为此,iSTAR数据分别拟合到三维和一维Rasch模型。然后使用似然比检验比较两个模型之间的拟合优度。如果这个测试的结果有利于三维模型,那么假设的三维结构就被认为得到确认和验证。

      其次,可以根据学生在三项技能上的平均能力来评估三项思维技能的难度进阶。如果设计是有效的,学生应该在COV上表现出高能力,在DA上表现出中等能力,在CDM上表现出低能力。使用Rasch分析,可以计算和比较学生在三个技能维度上的平均能力来验证设计的有效性。此外,还可以用被试-项目图(怀特图)显示个人能力和题目难度在常见logit尺度上的分布(Bond & Fox, 2015),以比较该分布是否适当地覆盖了广泛的能力范围和难度等级。适当的分布表明测试题可以有效区分不同水平的学生。

      对于Rasch分析的这一部分,iSTAR数据来自于同一所大学的另一组样本数量更大的大学生人群,总共378名学生。首先,对数据进行一维和三维Rasch模型拟合。两个模型之间的比较表明模型拟合参数有利于三维模式。似然比检验表明,与一维模型相比,三维模型在模型偏差方面具有统计学意义的改善(χ^2=65.793,df=5,p<0.001)。结果表明,iSTAR中三个技能维度的结构设计与评估数据的Rasch分析一致。这部分分析总结性地给出Rasch建模的主要结果,而Rasch模型拟合的其他细节在附录的表A2中提供。

      接下来,如表6所示,本研究计算了学生在三个技能维度上的能力估计均值,以及可靠性度量,后者将在下一节中讨论。计算结果与学生在COV、DA和CDM方面表现出由高到低的能力预测非常吻合,并且差异具有统计学意义(t_(COV-DA) (377)=15.421,p<0.001,d=0.793; t_(COV-CDM) (377)=34.943,p<0.001,d=1.797;t_(DA-CDM) (377)=26.759,p<0.001,d=1.376).

表6. 三维 Rasch 模型各维度的学生能力均值、信度和相关矩阵。对角线值是 EAP/PV 可靠性。
对角线下方的值是潜在相关性。

      此外,iSTAR的怀特图也绘制在附录的图 A1 中,该图表面测试题目覆盖了整个logit量表的大范围的难度级别(-3.428 到 3.045)。学生对这三种技能的估计能力也很好地覆盖了广泛的 logit 尺度范围并呈近正态分布。结果表明,iSTAR能够对不同水平的学生在三个技能维度中的每一个方面进行有效区分。综上所述,Rasch 分析结果表明,iSTAR的三维结构设计是完善的,并且测试项目对学生在三个技能维度上的能力范围都有很好的覆盖。

回到目录