本文是一篇软件工程硕士论文,本文通过两个研究探索提升多测验多分类下分类一致性的方法,第一个研究适用于观察分数,第二个研究适用于潜在特质,希望能对提升信度质量有所帮助。
1 引言
1.1 研究背景
分类测验广泛应用于教育、心理和医学领域,进行等级划分、人才选拔、心理诊断和医学诊断等[1-2]。中共中央全面深化改革委员会通过的《中共中央国务院印发深化新时代教育评价改革总体方案》,提到应贯彻落实全国教育大会精神、深化教育评价领域改革[3]。测验是教育评价的重要形式,用于确定测试者的等级顺序或筛选/选择特定的测试者群体,或者判断测试者是否达到了期望标准水平。测试者的得分通常是与一个特定的标准进行比较,而不是与其他测试者相比。这意味着测验的设计者会设定一个明确的最低要求或标准,测试者需要达到或超过这个标准才能被视为通过测验。这些分类决策(如及格、不及格)对许多证书或资格考试非常重要[4],测验分类结果会直接影响测试者入学机会、求职资格、心理干预和疾病治疗等,不准确的分类会造成严重的负面后果。例如,被错误地归类为 “不及格”的测试者可能无法继续高等教育;如果向不合格的测试者颁发医疗证书,测试者有可能造成医疗事故。因此,准确地分类测试者十分重要[5]。
研究者在考查测验分类结果稳定性视角下,提出了在分类测验的信度指标——分类一致性(Classification Consistency,CC)或决策一致性(Decision Consistency,DC)。分类一致性是指两次平行测验中测试者观察分类相同的概率,主要反应测验信度[6-7]。鉴于平行测验在实际中应用较为困难,如何通过一个测验单次施测结果估计分类一致性,一直是心理与教育测量要解决的重要问题,这对于评估和提高测验信度、确保测试结果的公平性具有重要意义。如何在实际测验中评估分类一致性,如何通过新的方法提高分类一致性的准确性,已经成为当前教育测量与心理学研究中的热点问题。尽管已有大量关于分类一致性估计的研究,但在新的教育测量和评价需求下,分类一致性研究仍面临许多挑战。

1.2 国内外研究现状
单次施测的测验的分类一致性估计方法,最早基于经典测验理论(Classical Testing Theory,CTT)衍生的。这类方法基于给定真分数条件下观察得分的独立性假设而得出。基于CTT的分类一致性方法主要有Subkoviak方法[8-9]、Huynh方法[10-11]、LL方法[12] 、Lee 方法[6]和Wolkowitz方法[7]。Subkoviak方法假设单个测试者在两个平行测验上的总分分布服从独立相同二项分布,其中二项分布的概率采用个体的观察或信度校准的项目答对率。Huynh方法采用结合贝塔—二项(beta-binomial,BB)分布来刻画总分边际分布,再在局部独立性假设下采用 双变量BB分布刻画两个平行测验上总分向量的联合分布,再结合决策规则计算分类一致性。LL方法主要基于有效测验长度并采用四参数贝塔分布和二项分布刻画真分数和总分的联合分布。W-DC方法是最近提出的一种计算简便的方法。
CTT下真分数具有样本依赖性,而项目反应理论(Item Response Theory, IRT)下的能力具有测量不变性。为了解决基于估计能力或期望分数的分类结果信度的评估问题,IRT下分类一致性随后发展起来。根据划界分数量尺不同,IRT下方法[12]主要分为基于观察分数[14-15]和基于潜在特质 [16-20]的两类方法。因为最初的Rudner指数和Guo指数仅用于估计分类准确性,Wyse和Hao(2012)提出了基于Rudner和Guo的分类一致性指数,该指数比Lee指数计算简单[19],并已应用于实际数据分析[12]。Lathrop和Cheng(2013)通过模拟研究表明,在大多数情况下,这两种方法产生相似的结果[12]。IRT发展呈现由简单到复杂、由单维到多维的发展规律[21]。单维项目反应理论 (Unidimensional Item Response Theory, UIRT)假设所有测试项目测量的是单一的潜在特质或能力。多维项目反应理论(Multidimensional Item Response Theory,MIRT)允许一个项目同时考虑多个能力维度或不同项目考查不同能力维度。为了解决基于多维能力或多个测验分数的决策分类结果的信度评估,有研究考虑了各种复杂决策规则下分类一致性估计方法,包括多维IRT下方法[22-23]以及基于多个测验分数复杂决策下的方法[24]。基于IRT的分类一致性方法也可以分为单维IRT和多维IRT两类方法。
2 相关理论及技术
2.1 测量理论
2.1.1 经典测量理论
CTT是心理测量学中历史最悠久、发展最成熟且影响深远的一种理论。1950年,美国学者Gulliksen出版了《心理测验的理论》一书,标志着CTT的成熟[50]。真分数模型是经典测验理论的基石,它基于真分数的概念,用来描述和解释测量过程中的实际情况或问题。在CTT中,真分数是指受测者在心理测验中潜在特质上的真实水平。然而,由于测量误差的存在,测量结果不可能完全准确,只能获得包含误差的实得分数。CTT假定,实得分数与真分数之间是一种线性关系,即实得分数是真分数与误差之和,这构成了CTT模型的基础模型: X=T+E,其中X是被试的测验总分,T是该被试在该特质上的真分数,是该被试在测验中的误差。CTT模型相对简单,是一个加法模型。测验分数(通常称为观测分数)等于真分数和误差之和。
真分数模型是CTT的核心依据。根据CTT框架编制和施测心理测验时,最重要的任务是尽量减小测验误差,以提高测验的可靠性,即信度。误差越小,实测结果越接近真实水平,从而能保持多次测量结果的一致性和稳定性,提高测验质量。由于公式中存在两个未知变量,对于每个被试来说,这个公式是无法解的。
2.2 项目反应理论模型
项目反应理论是确定潜在变量与其表现之间关系的模型系统[46-47]。IRT类似于统计估计理论,其中考生和项目的潜在特征被用作观察分数的预测因子。现有的项目反应理论,可以按照不同标准对其加以分类。以题目的参数数量的不同,可以分为单参数模型(简称1PL,在这个模型下只包括难度且区分度恒定为1,如:Rasch模型和单参数逻辑斯蒂模型)、双参数模型(简称2PL,在这个模型下包括难度和区分度,如二参数逻辑斯蒂模型)和三参数模型(简称3PL,在这个模型下包括难度、区分度和猜测参数,如三参数逻辑斯蒂模型)和四参数模型(简称4PL,在这个模型下包括难度、区分度、猜测参数和失误参数)。以题目的回答类型的不同,可以分为二分模型(如:1PL、2PL、3PL和4PL)和多分模型(如等级反应模型,Graded Response Model,GRM),GRM是一种用于分析多级评分数据的IRT模型,考虑了学生的答题能力、题目的区分度以及不同分数等级的难度。假设一道题满分为4分,有5个评分等级,参数包括区分度和各分数等级的难度,使用GRM模型可以用来计算不同能力水平的学生在该题上获得特定分数或以上分数的概率。GRM模型适用于需要精细评分的考试,如教育测试、心理测评等,能更准确地反映学生的实际水平和题目的难度分布。
根据维度的不同进行分类,可以把IRT模型分为单维IRT模型和多维IRT模型。单维IRT模型是假设所有题目都测量一个单一的能力或特质维度。多维IRT模型(MIRT)则适用于同时评估多个相关或不相关的能力或特质维度。例如,一个测量数学、阅读和写作能力的测试可能使用多维模型来更准确地评估每个维度。这些分类方式显示了IRT在不同应用场景下的灵活性和适应性。根据具体的研究目的和数据特性,研究者可以选择最适合的IRT模型进行分析和解释。
3 补偿决策下基于观察分数的多测验分类一致性方法 ................... 19
3.1 研究背景 ........................ 19
3.2 基于观察分数的多测验分类一致性研究方法 ....................... 19
4 补偿决策下基于潜在特质的多测验分类一致性方法 ................... 38
4.1 研究问题 .......................... 38
4.2 基于潜在特质的多测验分类一致性研究方法 ....................... 38
5 总结与展望 ..................... 55
4 补偿决策下基于潜在特质的多测验分类一致性方法
4.1 研究问题
在教育测评中,测试分类结果的稳定性和可靠性是衡量测试质量的重要指标。基于上一章节的研究结果,在补偿规则下,本章节提出了一种基于潜在特质的多测验多分类的分类一致性方法(TMDC),该方法通过计算学生之间潜在特质(能力)信息量矩阵和卡方统计量,用以计算和评估学生在分类测试中的一致性,得到准确的分类结果。不同于上一节的SMDC方法,SMDC方法沿用了CTT的测量标准误,不同分数的测量标准误相同;而本节的TMDC方法采用IRT信息量,考虑不同能力水平下的测量误差,可以更好地评价多测验的分类一致性。这为教育与心理测量领域中的多项测试的分类一致性评估提供了一种新的思路和方法。

5 总结与展望
分类一致性在教育心理测量中占据了至关重要的位置,尤其是在进行分类测验时,其准确性直接影响到评估结果的有效性和公平性。分类测验的目的是根据测试成绩将被测试者进行等级划分或筛选,从而决定其是否符合某一特定的标准或要求。为了确保这种等级
