爱奇飞网

网站首页教育知识 >正文

统计分析可以检测何时使用ChatGPT在多项化学考试中作弊

开心的月饼 2024-08-15 09:33:32 教育知识

随着生成式人工智能的应用不断扩展到教育的各个领域,人们对其对作弊的影响的担忧主要集中在论文、论文考试题目和其他叙述性作业上。使用ChatGPT等人工智能工具在多项选择题考试中作弊的情况基本上被忽视了。

统计分析可以检测何时使用ChatGPT在多项化学考试中作弊

佛罗里达州立大学的一位化学家参与了一个研究合作项目,他们的最新研究正在改变我们对这种作弊行为的认识,他们的研究结果揭示了如何通过特定的统计方法检测出使用ChatGPT在普通化学多项选择题考试中作弊的情况。这项研究发表在《化学教育杂志》上。

佛罗里达州立大学化学与生物化学系副教授肯·汉森(KenHanson)表示:“虽然许多教育工作者和研究人员试图检测论文和开放式回答中的人工智能辅助作弊行为,例如Turnitin人工智能检测,但据我们所知,这是第一次有人提出检测其在多项选择题考试中的使用情况。”“通过评估学生和基于ChatGPT的多项选择题化学考试之间的表现差异,我们能够在所有考试中识别出ChatGPT实例,误报率几乎为零。”

研究人员收集了佛罗里达州立大学学生五个学期的考试答案,将近1,000个问题输入ChatGPT,并比较了结果。平均分数和原始统计数据不足以识别类似ChatGPT的行为,因为有些问题ChatGPT总是答对或总是答错,导致总分与学生无法区分。

“这就是ChatGPT的特点——它可以生成内容,但不一定生成正确的内容,”汉森说。“它只是一个答案生成器。它试图让自己看起来像是知道答案,而对于不理解材料的人来说,它可能看起来像是一个正确答案。”

研究人员利用拟合统计数据,固定能力参数并重新拟合结果,发现ChatGPT的反应模式与学生的反应模式明显不同。

在考试中,成绩优异的学生经常能正确回答难题和简单问题,而成绩一般的学生则往往能正确回答部分难题和大多数简单问题。成绩较差的学生通常只能正确回答简单问题。但在ChatGPT反复尝试完成考试时,该AI工具有时会错误回答所有简单问题,而正确回答所有难题。Hanson和Sorenson利用这些行为差异几乎100%准确地检测出ChatGPT的使用情况。

两人采用一种称为Rasch建模和拟合统计的技术的策略可以很容易地应用于任何生成式AI聊天机器人,这些机器人将展示自己独特的模式,以帮助教育工作者识别这些聊天机器人在完成多项选择题考试中的用途。

这项研究是汉森与机器学习工程师本·索伦森(BenSorenson)七年合作的最新成果。

汉森和索伦森在三年级时相识,两人均在明尼苏达州圣克劳德州立大学攻读本科学位,并在进入职场后一直保持联系。作为佛州州立大学的一名教员,汉森对测量他的学生从讲座、课程和实验室工作中保留了多少知识产生了兴趣。

“我把这个话题带给了本,他擅长统计学、计算机科学和数据处理,”汉森说,他是佛罗里达州立大学的教职员工团队的一员,致力于提高学生在普通化学和大学代数等入门STEM课程中的成绩。“他说我们可以使用统计工具来了解我的考试成绩是否好,2017年,我们开始分析考试。”

Rasch模型的核心是,学生答对任何一道考试题目的概率取决于两个因素:题目的难度和学生回答问题的能力。在这种情况下,学生的能力是指他们拥有多少知识以及回答问题需要多少必要要素。研究人员表示,以这种方式查看考试结果可以提供强大的洞察力。

“我和肯的合作虽然是远程的,但过程非常顺畅,”索伦森说。“当教育工作者可能已经怀疑有作弊行为时,我们的工作是一种提供支持证据的好方法。我们没有想到的是,人工智能的模式竟然如此容易被识别。”


版权说明:本站所有作品图文均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系我们


标签:

站长推荐
栏目推荐
阅读排行