Theoretical Model and Quantitative Assessment of Scientific Thinking and Reasoning
科学思维的理论模型与量化评估

C. iSTAR的信度评估

      信度是指测评结果具有可靠的一致性,即在类似人群中重复应用该工具应能产生类似的结果[77]。在经典测试理论(CCT)中,信度系数通常基于两种等效测试工具的分数之间的相关性来确定。在实践中,这一概念被扩展到将一个工具的每一个项目都视为一种等效测试单元,进而衍生出使用 Cronbach’s α内部一致性系数作为信度的衡量标准。对于在上文Rasch模型分析中的大学生iSTAR数据,Cronbach’s α的计算结果为0.737,达到可接受的信度要求(>0.7)。 

      此外,Rasch模型以及项目反应理论体系的其他模型都是利用信息函数来评估测量信度 [81]。这些函数反应了观察到的成绩可以用来估计每个学生在单个项目或整个测试中的潜在特征值的精确度 [82]。使用这种带有 Rasch 建模的方法,可以根据项目信息函数和群体中潜在性状的分布来估计类似于传统信度系数的指数。在这个评估中,使用预期后验与合理值 (EAP/PV)信度的比率来衡量三个子量表的信度,这些子量表与三个维度之间的潜在相关性记录于表6。

      如表6所示,三个技能维度的EAP/PV信度为:控制变量(COV)为0.770,数据分析(DA)为0.720,因果决策(CDM)为0.697。通常,0.65-0.70的信度被认为是“最低限度可接受的”,而0.70-0.85的信度对于研究目的来说是“相当好的”[83]。结果表明,三个技能维度的信度是足够的,特别是考虑到学生潜在特征能力测量的复杂性质和每个维度的项目数量较少的情形。结合Cronbach’s α值和Rasch分析的结果,iSTAR的信度可以在整套测试层面和技能子维度层面得以确立。此外,三个维度之间的潜在关联度在0.794到0.819之间,表明技能维度之间有很强的关联性,它们构成了整体科学思维能力的共同基础。 

      综上所述,效度和信度的评估表明,iSTAR是一种有效、可靠的大学生科学思维评估工具。然而,由于该工具的复杂性,其设计具有多个子技能和广泛的项目难度分布,需要进一步研究以确定不同学生群体的效度与信度。尽管如此,本研究的结果为iSTAR在与大学新生相近水平群体的科学思维评估中的有效性提供了基本证据。

回到目录