Theoretical Model and Quantitative Assessment of Scientific Thinking and Reasoning
科学思维的理论模型与量化评估

B.2 iSTAR的标准效度

      在现有研究中,LCTSR长期以来一直被用作科学思维的评估[36]。因此,在本研究中,标准相关效度的证据是基于iSTAR和LCTSR得分之间的相关性来评估的。

      表4中显示的大学生的数据是在第一学期物理入门课程的第四周测量的。在283名学生中,约三分之一 (96) 参加了LCTSR,其余学生参加了iSTAR。测试对象的数量不均匀是因为设计了其他平行研究。每个学生随机参加两项测试中的一项,称为LCTSR-4 和iSTAR-4,以标记他们的测试类型和时间。对于所有学生,他们还在课程的第一周测试了iSTAR,标记为iSTAR-1。通过这种设计,可以获得iSTAR-1和LCTSR-4之间以及iSTAR-1和iSTAR-4之间的相关性。尽管第1周和第4周测试之间有三周的时间,但通常在这么短时间内学生科学思维能力的差异不会有显着变化[20]。

      对测试数据计算学生分数之间的Pearson相关性,结果显iSTAR-1和LCTSR-4之间有中等的相关性0.589 (p<0.001),同时iSTAR-1和 iSTAR-4之间也具有稍强的中等相关性0.680 (p<0.001)。正如预期的那样,重复iSTAR 测试之间的相关性强于iSTAR和LCTSR之间的相关性。这些结果表明,iSTAR的重复测试以及iSTAR和LCTSR之间具有基本的一致性。此外,表4所列的研究生也参加了iSTAR和LCTSR。他们两次考试成绩的相关性为0.750(p=0.002),略高于大学生中测得的相关性。研究生更高的相关性进一步证实,随着学生接近专家水平,两项测试的对科学思维能力的反应更趋于一致。

      为了检查两个测试中技能维度测量值之间的一致性,本研究还计算了iSTAR-1和LCTSR-4之间三个常见技能类别的相关性,如表5所示。结果显示COV的相关性为中等,CDM的相关性较低,而DA的相关性最小。从相关性的结果可得,与其他技能相比,这两项测试更一致地测量了COV技能。另一方面,涉及DA技能的测量在两个测试之间的设计则有很大差异。LCTSR只涉及到比例和基本概率的几个简单的DA技能,而iSTAR设计了15个题目,涵盖了从简单到复杂的DA技能。同样,两个测试之间的CDM设计也有很大不同。尽管如此,依据总分的总体相关性可以认为两项测试在衡量三种技能对科学思维综合的一维特征的测量具有良好的一致性。

表5.iSTAR与LCTSR学生技能维度得分的相关性。
除 r = 0.172 (p = 0.093) 外,所有相关性在 p < 0.01 水平上均具有统计学意义。

回到目录