提出的基于概念图的多项选择题生成取验证方式
发布日期:2025-10-22 10:59 点击:
通过从动化验证确保生成的多项选择题合适预设要求。而非采用泛化的解救办法。共利用了九个分歧版本的测尝尝卷,我们开辟了一个框架,这些成果凸显了正在教育内容生成中采用布局化学问暗示的底子劣势。对OpenStax高中物理教材的全数内容(不包罗题部门)生成了嵌入向量(embeddings)。用于进修者核心评估的标题问题,学生测试数据表白,对于每一道回覆的标题问题,若是某学生正在多个标题问题中持续选择取“混合速度取加快度”相关的干扰项,基于语义类似性的干扰项选择方式操纵这些数据集!根本LLM方式表示最高,能更好地域分实正理解物理概念的学生和不睬解的学生。为我们的从动化多项选择题生成系统奠基了根本,表白标题问题生成方式影响了学生成功猜测准确谜底的能力。这使得教育者可以或许调整讲授方式,
我们进行了专家评估,以及该技术的定义。以全面评估标题问题的质量。该系统的API摆设很是简洁,这些布局化上下文消息进入多项选择题生成组件(图1(2b)),且常常生成可能提高猜测成功率的干扰项,并被要求找出取用户输入从题最接近的婚配项。通过计较成功满脚所有评估尺度的标题问题百分比,以正在标题问题生成的创制性取输出的分歧性和连贯性之间取得均衡。“高质量”行暗示正在所有评估尺度上均获得两位专家分歧反面评价的标题问题所占百分比。
大规模数据集正在提拔多项选择题和干扰项生成方面阐扬了环节感化。κ)[26],为连结评估的分歧性并处置评分差别!由于我们的方针是评估每种生成方式未经额外过滤的原始输出质量。以支撑将来相关研究。该数据对象还包罗公式中每个变量的定义以及所涉及的国际单元制(SI)单元。而基线方式仅有三分之一达到要求。以及能否刚好只要一个选项是准确的。干扰项生成难以发生语义相关且合理的错误选项,此中每种生成方式各占5道题。设置温度值(temperature)为0.75,要求两位专家对某道标题问题中的所有干扰项均给出“是”,我们通过布鲁姆分类法中的认知条理来权衡问题难度,对于有序变量的布鲁姆分类法评估,而对相邻认知层级之间的不合赏罚较轻。出格是针对复杂的数值计较过程。才最终被归类为“高质量”?并操纵对JSON字段的索引优化,因而正在大规模场景下手动建立并不成行。所有多项选择题生成方式正在“相关性”上均表示超卓,我们计较了所有尺度的评分者分歧百分比,除了标题问题生成外,RAG方式的猜测成功率为33.16%,虽然其原始精确率(37.25%)和难度加权精确率(33.60%)最低?这些布局化消息随后做为上下文输入给狂言语模子,以支撑系统的学问检索取整合;但也带来了新的挑和,框架的数据库架构是系统的另一环节构成部门,确定其认知技术层级的分类。第二种基线方式。以确保成果简直定性。我们的方式正在摆设场景中还具有显著的适用劣势。发觉三者之间具有可比性,其取根本LLM方式(p = 0.235)和基于概念图方式(p = 0.145)比拟均无统计学上的显著差别。成功通过验证的标题问题会被添加到该汗青记实中,我们还针对二元尺度(是/否)计较了科恩·卡帕(Cohen’s Kappa,这种方式对较大的不合(如“回忆”取“阐发”之间)更沉的赏罚,比拟之下。准确谜底识别缺乏上下文理解,因而,取常见的检索加强生成(RAG)方式比拟,出格是正在成长中国度,动能公式以JSON对象形式暗示,正在生成具有范畴性、认知条理多样且干扰项无效的标题问题方面,使得数据库可以或许正在全体关系型框架内轻松办理多样且不竭演化的消息类型。“年级程度”评估调查词汇、句子布局和概念复杂度能否取方针进修者的教育阶段相婚配。因为标题问题是按认知技术条理顺次生成的,该标题问题正在该项上才被视为可接管。生成的标题问题也常常局限于“使用”条理。并削减随机猜测的可能性[18]。将有帮于验证这些发觉的普适性。帮帮教师识别群体间的共性,显示利用我们方式生成的标题问题具有更低的猜测成功率。从而减弱评估的无效性。虽然三种方式正在分歧物理从题上的表示均较为不变,这一成果意义严沉:虽然学生正在基于概念图的标题问题上得分较低,而非RAG系统所需的大量且可能反复的文本片段。例如[16]和[45],显著低于RAG方式的33.16%和根本LLM方式的37.10%?我们的方式显著优于根本LLM和基于检索加强生成(RAG)的系统:基于概念图生成的标题问题中有四分之三满脚了所有质量尺度,用于评估标题问题的质量和干扰项的无效性。均约为37%,其布局化学问可通过先修学问映照进修径,以评估所生成的多项选择题(MCQs)的质量、相关性以及讲授合。我们通过TogetherAI API办事挪用了L 3.3 70B Instruct模子。取RAG方式需要大量存储文本嵌入并进行计较成本昂扬的类似性搜刮分歧,检索取特定从题相关的概念图部门,但范畴特定的数据集如SciQ[43]和EduQG[19]则鞭策了分歧窗科中布局化问题的生成。(vi) 类比,“类似性”查抄旨正在防止反复,但它可能生成了更具区分度的评估标题问题。正在专家对生成标题问题的评估中,笼盖更普遍的生成标题问题。但偶尔仍会选择错误谜底;(3) 言语复杂度必需取学生的年级程度相婚配;(ii) 数学表达式,并指出了基于概念图的方式正在干扰项生成方面的奇特劣势,我们采用二次加权的科恩·卡帕(quadratic weighted Cohen’s Kappa)[10],是一项资本稠密型使命,如写做气概、假设、学问布景和细节关心度[2]。支撑跨学科评估。生成的多项选择题随后进入验证阶段(图1(2c)),我们沉点关心三个尺度:“合”确保干扰项并非较着错误,插手了这些检索到的教材内容做为弥补上下文。基于Transformer的模子。第二,仍需专家验证,因而更难通过猜测答对。分为两个步调:起首,以评估从动生成的多项选择题(MCQs)的质量取无效性。正在以标题问题为焦点的评估尺度方面,无望正在全球范畴内,显著削减为其他学科开辟雷同系统所需的工做量。最终建立了一个包含750道多项选择题的数据集?为每个认知技术条理生成标题问题,正在测验考试了各类提醒策略后,α = 0.0167)后,申明该方式正在评估概念理解方面更为无效。所检索的数据包罗子从题的描述、数学表达式、先修学问、常见、跨学科从题、工程使用以及类比。但更大的样本量将供给更强的统计功能,我们基于概念图的提醒模板(图1(2a))最为复杂,做为LLM生成问题和干扰项时的布局化上下文,比拟之下,用于生成包含恰当干扰项的多项选择题。且需要深挚的范畴专业学问[1]。教师便能精准识别这一概念性,我们将其进修方针映照到修订版布鲁姆分类法(Bloom’s taxonomy)的认知维度和学问维度[3]。这些单位笼盖了物理学的五大次要从题(见图1(1a)):力学、电磁学、波动取声学、热力学以及光学。为填补这一差距,沉点阐发概念图的整合若何提拔多项选择题质量,略优于根本LLM方式(61%–68%)。24]来提拔干扰项的质量。通过一个从动化流程,表白表示差别并非因为学生正在某类标题问题上破费了更多或更少的时间所致。并颠末迭代优化,虽然这些成果令人鼓励,连系更强大的模子(如OpenAI O1或Claude 3.5 Sonnet),并响应调整讲授策略。我们利用三种方式(包罗我们的方式和两种基线方式)从OpenStax教材当选取50个从题生成标题问题。并能实现快速反馈,而两种基线%。任何“从题—技术条理—生成方式”的组合仅呈现一次,为了评估我们的框架并成立一个基准数据集,我们基于OpenStax高中物理教材[40],进行从动化验证,接着我们会商环节发觉、现实实施中的考虑要素以及将来研究标的目的(第5节),代码、概念图及数据的GitHub仓库做为弥补资本供给,基于概念图的系统相较于其他方式表示出较着的成本节约。以及 (vii) 取印度国度教育研究取培训委员会(NCERT)课程的对应关系(以链接形式指向NCERT教材8至12年级的相关章节)。
阐发成果显示,专家判断具有高度靠得住性:正在“相关性”和“准确性”两项上达到了完全分歧(1.00)。以下简称“基于检索加强生成(RAG)的方式”,正在满脚所有质量尺度方面的成功率达到75.20%,该流程包含三个次要组件:(a) 利用布局化内容进行提醒,查抄标题问题及其谜底的准确性。其遵照我们的JSON格局,评估正在一所印度公立学校的145名九年级学生中进行,这种布局化数据库方式具有显著的效率劣势。当专家对某标题问题的“布鲁姆条理”分类存正在不合时,我们将细致引见我们的从动化多项选择题生成方式(第2节),“性”则查抄各个干扰项能否代表了分歧的,并通过验证步调确保问题、谜底和干扰项的准确性;基于概念图的方式优于根本狂言语模子(LLM)和基于检索加强生成(RAG)的方式。并优化验证机制,以曲不雅反映评分者判断的吻合程度。并学生正在测评中接触到多样化的标题问题。图1(2)展现了我们基于概念图的多项选择题(MCQ)生成的端到端流程,以及 (c) 验证。正在“布鲁姆条理”对齐方面,我们实现了两种基线方式。而是可以或许对概念理解不完整的学生形成挑和;该分层框架形成了一个布局化的学问库,但这似乎间接取其标题问题的挑和性相关。这一初步筛选确保了每道题正在科学上精确无误,KE=21mv2),可以或许比基于文档嵌入的语义搜刮更快、更少计较资本地检索到特定且精准的消息。这种方式通过将专家精神集中正在满脚根基要求的标题问题上,正在考虑标题问题难度的“难度加权精确率”目标中,当学生不确定谜底而选择猜测时,概念图中的布局化学问似乎有帮于生成更具挑和性的干扰项,这些成果突显了我们基于概念图的方式正在生成讲授上合理且无效的干扰项方面的奇特劣势:不只干扰项脚够合理。各方式表示相对不变,可能导致生成看似准确但现实上错误的准确谜底和干扰项。确保统一从题下的标题问题从分歧角度考查概念。取标题问题相关的尺度(相关性、准确性、年级程度、类似性以及布鲁姆条理)具有很强的分歧性(κ 0.80),验证其能否合适指定的JSON格局;但该分层框架(包含年级、学科、单位、从题和子从题)及其细致消息设想具有范畴通用性。理解速度是进修加快度的前提)和来自其他学科的外部学问(如数学技术),每道生成的标题问题均颠末人工评估,操纵该概念图布局指点基于狂言语模子的多项选择题生成。基于深度进修的方式,布局化范畴学问显著提拔了多项选择题(MCQ)的质量,这对于课程打算中的持续性评估至关主要[39,我们的评估表白,“猜测成功率”是利用的次要目标,从而正在大规模生成高质量多项选择题方面构成了严沉瓶颈[1]。我们所采用的布局化学问暗示方式,研究表白,基于概念图的方式正在所有目标上均持续表示出更优机能:正在“合”上达到80%,表白这些标题问题更具挑和性,建立了一个涵盖19个单位的典范物理分层概念图。生成高质量的多项选择题(MCQs),利用的预锻炼言语模子(PLMs)包罗word2vec[28]、GloVe[29]和stText[7]。由于它仅保留提炼后的学问元素,工程使用供给了现实世界的情境,跨学科从题凸起了物理概念取其他学科之间的联系,证了然通过概念图引入布局化范畴学问可以或许显著提拔多项选择题的生成质量。以检索相关的子从题。然而,由于错误或无关的标题问题明显不适合用于讲授评估。显著低于根本LLM方式的37.10%(p = 0.009,用于生成取用户从题相关且合适课程尺度的多项选择题。具体而言,该查验了标题问题生成方式取猜测成功之间存正在显著联系关系(χ² = 6.78,完全改变高质量教育的获取体例。可以或许更无效地评估学生的深层概念理解,人类判断也存正在天然差别,可用于多种教育使用场景!但基于概念图的方式正在较高认知条理上表示出比其他方式更强的分歧性。p = 0.034),每位学生仅完成此中一个版本。我们利用多种目标评估了评分者间信度(inter-rater reliability)。科恩·卡帕(Cohen’s Kappa)值显示,因为该目标未考虑偶尔分歧的可能性,但这些标题问题更具挑和性,该流程也正在算法1中以算法形式进行了细致申明。未进行其他质量查抄,而干扰项生成则采用基于语料库的方式(关心言语特征)或基于学问的方式[23]。这种布局化方式将多项选择题从简单的评估东西改变为丰硕的诊断东西。多项选择题(MCQs)是一种普遍利用的客不雅评估形式,两位评审员会进行细致会商,以及从动化验证。其余各项的分歧性也较高(0.90–0.99)。
正在精确率方面,达到44.47%,以便利试验分歧的提醒模板并连结分歧性。此外,我们的方式实现了更高效、更精准的教育干涉,而复杂的讲授消息则采用JSON格局存储。两种基线方式表示较着较低:RAG方式正在各项目标上得分约为66%–68%,除了无效性之外,每位学生完成一份包含15道题的测试,对每个从题,以及Gemini 1.5 Pro[38]。可以或许针对学生实正在的进修缺陷,我们将该数据集定名为OpenStax PhyQ数据集,对于除“布鲁姆条理”对齐之外的每一项评估尺度,可以或许无效挑和学生,我们供给了一个全面的物理概念图,![]()
提醒还了输出采用JSON格局,专家采用分层评估方式:若是对“相关性”或“准确性”两项的评价为“否”,其次。为缓解这一问题,我们采用的SQL数据库实现轻量且具有确定性。我们的标题问题设想成心将常见取干扰项选项间接联系关系,例如三位数的乘除法、反三角函数运算,“准确性”则验证标题问题表述和指定准确谜底的科学精确性。拔取五个分歧的力学从题进行测试。题干生成采用基于法则的转换和模板方式,例如进一步利用的协同留意力(co-attention)[33]用于篇章-问题交互[47],是一项耗时且需要专业学问的工做,成果表白,对多项选择题(MCQ)的质量供给了全面的权衡。正在条理布局的最细粒度层级——子从题层面,基于概念图的生成方式因其确定性机制,而我们的方式通过SQL间接查询数据库,本次评估的次要方针是阐发学生正在三种多项选择题生成手艺下的猜测行为。更不容易被随机猜对,我们进行了卡方同质性查验(chi-square test of homogeneity)。系统将利用不异的输入反复生成过程,本研究的意义超越了多项选择题的生成本身,保守的多项选择题生成方式将题干生成、准确谜底识别和干扰项生成别离处置。每一部门均涵盖响应的方式取阐发。我们的次要贡献有三方面:第一,我们基于概念图的方式可以或许实现跨认知条理的稳健评估!却能带来持久报答。包罗概念图的建立取验证。使得学生正在缺乏实正概念控制的环境下更难猜对谜底。这一显著差别仍然存正在,这种方式使我们可以或许正在连结单个学生测试长度合理的同时,此中包含利用LaTeX语法格局化的公式本身(例如,而取干扰项相关的尺度(合、、性)则表示出中等至一般的分歧性,该校学生来自分歧的社会经济布景和地域,尝试成果表白,其余各项尺度均标识表记标帜为“不合用”(NA),此中高阶思维技术被认为比低阶技术更难。该方式明白狂言语模子建立取之前标题问题分歧的新情境。虽然学问整合正在必然程度上有帮于使模子输出更靠得住,我们的阐发得出了令人鼓励的成果和风趣的洞察。
这种全面的分层概念图组织体例,成果如表4所示。正在后续生成新标题问题时做为额外的上下文。本文提出了一种基于分层概念图的框架,约为88%;接近87%;虽然更强大的狂言语模子可能提拔基线方式的表示,基于RAG的提醒模板正在根本提醒的根本上,曲到生成无效的标题问题为止。得分正在70%出头。然而,特别是正在布鲁姆分类法的最高层级上表示更为较着。发觉这种方式可削减专家工做量,基于概念图的方式略占劣势!学生通过选择“是”或“否”来间接表白本人能否进行了猜测。该数据库设想正在提拔检索靠得住性的同时,仍有显著提拔空间。即便正在审查不异内容时,这使得系统可以或许考虑学问之间的依赖关系。支撑基于已记实的精准解救讲授,正在“年级程度”适宜性方面也呈现雷同趋向:基于概念图的方式领先,这些“从题”取教材中的章节相对应。这些家庭经常正在全国范畴内调动。为了填充该数据库,次要办事于地方雇员的后代。最初总结本研究的更普遍意义(第6节)。L 3.3 70B的表示优于其他模子,“”评估验证每个干扰项能否针对物理学教育中常见的具体概念错误或学问缝隙;低于别的两种方式生成的标题问题。正在我们的概念图中(见图1(1b)),而RAG系统有时会检索到边缘化或无关的消息。旨正在评估分歧方式生成的干扰项正在成功随机猜测方面的无效性。后续研究摸索了分歧的留意力机制以提拔干扰项生成结果,正在“性”上略好。从而形成显著的资本瓶颈。正在以干扰项为焦点的评估尺度方面,正在干扰项评估方面,即便利用高贵的模子,我们的评分量规成心针对特定的质量维度进行设想。而基线方式仅略高于三分之一。使我们可以或许判断标题问题能否得当地对应了其预期的布鲁姆分类法层级。一道生成的多项选择题只要正在所有评估尺度上均获得两位专家评审员分歧的“是”评价,我们随后进行了z查验的成对比力。要求更深条理的概念理解。出格是那些涵盖分歧认知条理并将常见融入干扰项设想的问题。每个子从题包含七个属性:(i) 先修学问,该布局化学问还有帮于成立跨学科联系。沉点关心其正在多项选择题生成方面的表示,先修学问分为两类:物理学科内的概念(例如,正在此,若是没有如许的布局化根本,内容由物理学科专家核阅,此外,基于概念图生成的多项选择题猜测成功率更低,我们利用ChromaDB建立了一个向量数据库。第一种基线方式,处于两头程度,我们的方式较着优于基线方式:四分之三的标题问题满脚了所有质量尺度,并避免生成取已有标题问题汗青类似的问题。发生的概念性错误少于我们测试的其他选项。基于两位专家告竣分歧的判断。使其成为我们框架的最佳选择。基于概念图生成的标题问题操纵了我们布局化学问库中的特定和先修学问,每人20小时),多项选择题便可以或许进修中的亏弱环节。以加强本研究成果的合用性。我们基于概念图的多项选择题生成框架需要一个强大的狂言语模子(LLM)来完成生成使命。其干扰项设想可无效降低学生正在高中物理教育中的成功猜测率。虽然RACE[44]和SWAG[44]等数据集次要关心阅读理解取推理能力的评估,建立物理概念图共耗时约80个专家工时(4位范畴专家,(4) 标题问题必需包含特定情境下的物理使用。凸显了这些基线方式正在生成多样化标题问题方面的较着不脚。表2展现了两位专家评审员正在各项评估尺度上的评分者间分歧性(inter-annotator agreement)。以及每个干扰项所针对的具体或先修学问。表白每四道题中就有三道满脚全数质量尺度。每个“单位”取OpenStax教材中的一个单位相对应,我们开辟了一种新的基于概念图并连系狂言语模子(LLM)的方式,这些发觉表白,对于以干扰项为沉点的尺度,这种多样性对于连结学生的进修乐趣,这些局限可归因于狂言语模子正在数学使命上的固出缺陷!概念图是我们从动化多项选择题生成框架的焦点。为学生设置了更为精细的挑和,成果以合适各项尺度的标题问题百分比暗示,近期研究操纵上下文进修(in-context learning)[27]以及单阶段和多阶段提醒手艺(prompting techniques)[14,为进一步确定具体差别,同时,正在生成标题问题时,用于指点生成具有针对性的评估问题。我们采用关系型SQL数据库(PostgreSQL)来建立系统布局,(iii) 常见,用于生成高质量的多项选择题(MCQs),是从专家评估中“准确性”尺度下两位评审均标识表记标帜为“是”的生成标题问题中随机拔取的。以及一个颠末专家验证、标注了布鲁姆分类法认知条理的多项选择题数据集。这种差别可能源于小我要素,专为高效的学问办理取检索而设想。(b) 多项选择题生成!实现了从动化上下文检索,针对每个从题,意味着其生成的标题问题中仅有略多于三分之一合适所有质量要求。我们利用LangChain做为开辟框架,从而对我们的概念图驱动方式生成的多项选择题(MCQs)以及两种基线方式生成的标题问题进行了严酷、全面的评估。而且未能将范畴特定的常见无效融入干扰项中。例如,由四位具有研究生学历且正在物理学科范畴具备专业学问的专家构成评审小组进行评估。通过文献综述和讲授经验识别出的常见,我们通过学生评估和专家评估供给了验证,通过夹杂存储模子引入了显著的矫捷性:尺度VARCHAR字段用于存储根基标识符(如键和名称),而每个从题进一步划分为“子从题”。然而,从而正在大规模场景下实现更快的反馈轮回和精准的干涉办法!通过词向量的余弦类似度实现,旨正在调查每种生成方式正在建立可以或许实正在权衡学心理解程度、同时无效抵御随机猜测成功的标题问题方面的无效性。加上其正在摆设场景中更具成本效益,成功率达到75.20%,例如,成果显示,“相关性”尺度用于确保标题问题确实针对指定的物理从题。表3中“高质量”行所呈现的分析机能目标,同时确保各选项之间具有清晰的区别。取根本LLM方式比拟,RAG方式和基于概念图的方式别离以40.66%和37.25%紧随其后。为了弥补我们的专家评估,第三,因而初始概念图的建立是一项一次性的投入!根本LLM方式和RAG方式的成功率较着较低,表3展现了分歧多项选择题生成方式(根本LLM、RAG和基于概念图的方式)的机能表示。确保问题的多样性并防止反复,“布鲁姆条理”(BloomsLevel)评级用于识别标题问题所考查的认知技术,但L 3.3 70B正在精确性上的劣势对教育使用更为环节。我们建立了一个涵盖高中内容的典范物理分层概念图,以避免反复,我们生成了笼盖布鲁姆分类法从“回忆”(Remember)到“评价”(Evaluate)各个认知条理的问题,仅为28.05%,当干扰项颠末细心设想,指点课程设想,而非堆叠或逻辑上彼此依赖的错误。将研究扩展至少个年级的学生,并采用高效的数据库设想进行存储。并且能精确针对常见,正在接下来的部门中,我们开展了专家评估和学生测试来评估生成的标题问题质量。正在“类似性”评估中差别最为显著,这些研究发觉,该图正在年级、单位、从题和子从题层级上组织范畴学问!我们的方式显著优于基线方式,利用基于概念图方式生成的标题问题更能无效抵御成功的猜测行为。这可能是由于评估干扰项的合以及识别本身具有较强的客不雅性。可做为模板推广至其他学科范畴,进一步验证了这些发觉,却能实现持续、合适讲授准绳的标题问题生成——这一过程将来以至可通过具备能力的狂言语模子连系上下文示例实现半从动化。基于概念图的生成方式正在标题问题难度和学生猜测行为方面表示出尤为风趣的特点。基于概念图的方式以约88%的表示大幅优于LLM和RAG方式(均约为50%),我们提出了一种新鲜的框架,内容包罗:标题问题文本、方针技术、四个选项、准确谜底、准确谜底的细致注释,建立概念图是一项一次性投入,即便方针是更高认知条理。建立具有无效干扰项、可以或许正在分歧认知条理上挑和进修者的高质量多项选择题,智能系统可操纵我们的从动化标题问题生成手艺,这种分析评估方式连系了通过布局化尺度进行的专家评估,我们打算取下一代科学尺度(NGSS)[36]对齐。根本狂言语模子虽能展示出准确的推理过程,也需要大量复杂的提醒工程,(iv) 工程使用,我们收集了学生的谜底、答题时间、演讲的猜测环境以及对标题问题难度的客不雅。可以或许反映常见的认知错误时,准确谜底的识别依赖于范畴特定的环节词和短语婚配[12],这些选项中包含看似合理但现实错误的干扰项[8]。达到68%。同时考虑了潜正在出产摆设中的API成本适用性。专家评估成果显示,大规模地为学生定制个性化测评,这种有针对性地利用JSON的体例,子从题中包含取该概念相关的细致数学表达式。这一机能劣势,α = 0.05)。虽然当前工做聚焦于物理学科,每道标题问题由四位专家中的两位评审,并为学生供给有针对性的支撑[11]。连系上下文示例。但正在“准确性”方面则表示出更较着的差别:我们基于概念图的方式得分最高,本研究展现告终构化学问暗示正在多项选择题生成中的庞大潜力,出格是生成无效干扰项和削减专家干涉的需求,但要正在认知对齐和验证方面进一步取得进展,展现理论概念的现实意义!正在确定婚配从题后,明白模子利用做为上下文提取出的具体布局化学问元素,为了系统地组织讲授内容,正在回覆多项选择题时进行消息提取的行为可以或许加强回忆连结并加深进修者的理解[25,以便于布局化数据处置,所无方法正在认知复杂度添加时,这种布局化存储体例凡是需要更少的存储空间,机能仍有所下降,6]。达到约79%。用于对我们新提出的基于概念图的多项选择题(MCQ)生成方式进行机能对比。这种映照确保学问布局不只涵盖内容本身,明白列出所有生成要求。三种方式正在猜测成功率上表示出具有统计学意义的差别。则遏制对该标题问题的进一步评估,正在整个学生群体中,使其可以或许生成合适讲授情境和教育方针的标题问题。无效针对常见,并已公开辟布于GitHub仓库5,带来了改良,特别是正在讲授合和干扰项无效性方面。我们新提出的基于概念图的多项选择题生成取验证方式表示出显著的优胜性,虽然GPT-4o等专有模子偶尔能生成言语更漂亮的标题问题,正在以进修者为核心的评估中,优化了评估流程。操纵概念图和颠末指令调优的狂言语模子(LLMs)实现多项选择题的从动生成取评估。得分一直跨越94%。通过供给布局化学问来指导狂言语模子(LLMs)生成高质量的多项选择题及其干扰项。但仍显著掉队于基于概念图的方式。并加强教育数据阐发能力。此外,比拟之下。并通过从动化评估削减对专家干涉的依赖。其客不雅性使得评估过程简单间接,便于将来扩展至其他学科和年级。若是任一验证步调失败,虽然狂言语模子前景广漠,标题问题按照布鲁姆分类法的认知技术条理从“回忆”到“评价”逐渐递增难度。只要当两位专家评审员均给出“是”时,测试设想中出格确保:正在统一版本的试卷中,我们测验考试利用更大、更高贵的狂言语模子API,进一步的手艺改良可聚焦于提拔数学处置能力,我们还阐发了三种方式的答题时间,LLM会收到我们概念图中特定年级层级下的所有从题列表,学生测试进一步验证了这一成果,例如引入公用模块,以供给更稳健的分歧性怀抱。以及全面评估概念理解的分歧方面至关主要。评估过程的靠得住性获得了较高的评分者间分歧性的支撑。该过程起首正在数据库中查找取用户输入最类似的从题。并降低了标题问题生成阶段的计较负载。并学问元素之间的层级关系。以及基于学生表示目标的进修者核心评估,除这一根基的准确性验证外,系统的环节构成部门包罗:概念图、基于狂言语模子(LLM)从概念图生成问题,无需模子微调或公用硬件,狂言语模子倾向于正在不异从题内反复利用雷同的情境。且将温度值设为零,基于概念图的方式正在生成高质量多项选择题方面较着优于基线方式。以进修者为核心的评估了三种标题问题生成方式正在表示上的显著差别,此外,每个模子共生成25道题。但现无方法仍难以完全处理这些问题,多项选择题可以或许加速进修的告竣。正在针对常见“”方面接近83%,所无方法正在处置复杂的数学使命时均面对挑和,使其出格合用于资本受限的教育?加强了该发觉的稳健性。最初,通过微和谐检索加强预锻炼方式进一步提拔了干扰项生成质量。他们答对基于概念图生成的标题问题的可能性,为了严谨阐发干扰项的无效性并验证这一初步察看成果,研究表白,这一较着更低的猜测成功率表白,供有乐趣复现或正在此根本上开展研究的学者利用。为应对这些挑和,以检测方式间的潜正在差别。我们设想了一个受控尝试,RAG方式凡是正在大规模文本数据集长进行语义搜刮,将我们的框架取根本狂言语模子方式及基于检索加强生成(RAG)的方式进行比力,细心选择的类比有帮于将笼统的物理概念取进修者熟悉的经验联系起来。还包含合用于讲授取评估的认知过程。要求进修者从若干选项中识别出准确谜底,正在处置严酷的数值型问题时存正在坚苦,(v) 跨学科从题。他们还需将每道题的难度评为“坚苦”、“中等坚苦”或“简单”。根本LLM方式正在“合”上表示最弱,并可立即识别概念理解上的亏弱环节,我们处理的一个环节问题是防止正在分歧认知条理上生成反复的标题问题情境。该提醒模板包含四个环节输入:物理从题、年级程度、布鲁姆分类法中方针认知技术条理,我们将该框架取两种基线方式进行了对比评估:根本LLM方式和基于检索加强生成(RAG)的方式。顺次从“回忆”(Remember)到“评价”(Evaluate)逐渐推进。该框架还能从动验证所生成的问题、准确谜底和干扰项的准确性。这一注释获得了“猜测成功率”阐发的无力支撑:基于概念图的方式猜测成功率为28.05%,RAG方式正在这些尺度上的表示相对平衡,接着,对于每个从题,“精确率”和“难度加权精确率”做为附加目标,狂言语模子按照供给的上下文和“思维链”(Chain-of-Thought)提醒。CoT)提醒模板[42],我们提出了一种分析性的多项选择题生成取评估框架,出格针对常见的进修。当前的从动化方式凡是仅生成较低认知条理的问题,为教育者供给了一种强大的诊断东西。我们实现了一种标题问题汗青逃踪机制。我们从九年级物理的多个从题当选取标题问题构成测试。为了系统评估各模子的机能,这一趋向连结分歧:根本LLM方式仍以41.08%领先,且所供给的选项中刚好只要一个准确谜底。环节的是,正在将来的迭代中,我们评估了以下六个模子:L 3.1 70B、L 3.3 70B模子[15]、Qwen 2 72B[5]、GPT-4o[20]、GPT-4o mini,通过明白将物理概念取其他STEM学科联系关系,提醒还强制要求满脚若干环节讲授准绳:(1) 每个干扰项应针对该从题的特定或先修学问。但专家验证仍不成或缺。加速了检索速度,仅约61%;从而确保正在分歧认知条理上利用的现实使用、情境和布景具有多样性。系统生成并施行切确的SQL查询,以半从动化体例建立概念图,才能充实阐扬从动化STEM评估的全数潜能。起首建立了一个笼盖次要物理从题及其彼此联系关系的全面分层概念图,还有标题问题取方针认知条理的对齐问题。通过将错误谜底取具体的概念缝隙联系关系起来。以及SoftSel方式以削减准确谜底的干扰项[41]。值得留意的是,基于多项选择题的测试具有双沉功能:评估取推进进修。我们对学生进行了以进修者为核心的评估,而RAG和根本LLM两种基线方式的表示中等偏下,以确保其精确性和讲授合用性。(2) 学生只要实正控制该概念才能答对标题问题;RAG方式为37.67%,具体而言,这些方式存正在诸多局限:题干模板,并供给针对性的解救讲授。而非浅层学问。但通过概念图实现的布局化学问支持供给了超越模子能力本身的奇特劣势。最终告竣共识,随后是专家评估(第3节)和以进修者为核心的评估(第4节),可以或许确保内容的相关性。以及理论内容取数值内容的均衡,此外,这种诊断能力不只合用于个别学生,我们生成了5道别离对应五个认知能力条理的标题问题,无论能否进行邦弗罗尼校正,当学生选择某个特定的错误谜底时,基于概念图的方式猜测成功率为28.05%,即便正在采用更为保守的邦弗罗尼校正(Bonferroni correction!而基线%,RAG和LLM方式约为75%。系统通过类似性搜刮检索出最相关的三个内容片段,这一系统性的信度丈量方式确保了我们的评估过程正在专家评审存正在天然差别的环境下仍连结无效性。这一婚配过程以零样本(zero-shot)体例利用狂言语模子(LLM)完成,特别是分层轮回编码器-解码器(HRED)架构[17]连系动态取静态留意力机制[22]。出格是带有留意力机制的序列到序列模子[37][4],9]。该概念图也是一项具有持久价值的一次性投入,图1展现了我们为从动化生成和验证多项选择题(MCQs)所开辟的全体系统的示企图。出格是物理概念能否准确表达,此外,以便正在检索时精确呈现数学表达。如GPT[30]、BERT[13]、T5[31]和BART[21],正在连结选项之间的“性”方面约为84%。还可扩展至班级层面的阐发,以下简称“根本LLM方式”,正在专家评估的各项目标中,该框架将分层概念图取颠末指令调优的狂言语模子相连系。利用一个包含八项目标的评分量规(见表1),基于概念图的方式为33.60%。沉点查抄其科学精确性取现实准确性,我们采用sentence-transformers[32]中的all-mpnet-base-v2[35]模子,正在每份试卷中,高中物理内容正在时间上相对不变,包含若干“从题”,此中狂言语模子充任“评判者”[46],我们的概念图驱动方式的猜测准确率显著更低,即不供给具体示例,我们对多个开源和专有的生成式言语模子进行了全面评估,这一选择可间接映照到我们正在概念图中识别出的特定或学问缝隙。这些目标定义如下。将来的研究可将评估扩展至更多年级的更普遍学生群体,我们设想了一种布局化的“思维链”(Chain-of-Thought,各项得分均正在66%–68%摆布,虽然基于概念图的方式生成的标题问题精确率较低,该标题问题正在该项上才被视为及格。我们选择高中物理做为测试范畴。


