总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://dl.acm.org/doi/10.1007/978-3-031-79032-4_12

https://www.doubao.com/chat/20594626384092674

Investigating Universal Adversarial Attacks Against Transformers-Based Automatic Essay Scoring Systems

在这里插入图片描述

速览

这份文档主要研究了一个很实际的问题:现在常用的“自动作文评分系统”(比如改作业时帮老师打分的AI),会不会被学生用简单方法“骗分”——也就是学生没写出好作文,却让AI给高分。研究团队还专门测试了三款主流的AI模型,看看它们的“防骗能力”怎么样。

先说说背景:现在很多自动评分系统用的是“Transformer”这种先进的AI技术(比如BERT、Phi-3、Gemini这些模型),虽然评分效率高,还能用于GRE、托福这类重要考试,但这些AI其实可能“走捷径”——不是真的看懂作文质量,而是靠一些表面特征(比如字数多、用了很多副词形容词)来打分。学生要是发现了这些规律,就可能故意钻空子。

研究团队是怎么做的呢?

  1. 先搞清楚AI可能关注哪些“表面特征”:他们训练了一个简单的“线性回归模型”,分析了72个作文特征(比如副词占比、形容词数量、文章长度),发现“副词多、形容词多”是AI很看重的加分项。
  2. 模拟学生“骗分”:根据这些特征,设计了9种简单的“骗分作文”,比如:
    • 只列一堆副词(“好地、坏地、快速地……”);
    • 把副词列表重复4遍,假装是4段作文;
    • 写一句堆满副词形容词的话(比如“无可否认地,缓慢又仔细地思考这个重要又复杂的问题”),然后重复10遍凑字数。
      后来还加了第10种:写一句像“结尾段”的话(比如“政府应该快速通过法律解决这些可怕的问题”),重复7遍,专门骗“结尾段评分”。
  3. 测试三款AI:把这些“骗分作文”发给BERT、Phi-3、Gemini打分,看它们会不会给高分(满分1000,600算及格)。

结果很有意思,三款AI表现不一样,但都有漏洞:

  • BERT最容易被骗:比如重复堆副词形容词的作文,它给了800分(接近满分),而且作文越长、重复越多,分越高,完全没看出是“凑数”。
  • Gemini相对聪明点:能识别“重复凑数”——重复多的作文分低,但它会给“只列形容词列表”的作文打640分(及格了),还是会被骗。
  • Phi-3中等:比BERT难骗,但遇到“假装结尾段”的作文,还是给了560分(快及格了),而且它原本是用英文训练的,哪怕微调了葡萄牙语,还是有漏洞。

最后结论:就算是很先进的自动评分AI,也能被学生用“堆副词、凑字数、重复句子”这种简单方法骗分。这提醒设计评分系统的人,得想办法让AI真的看懂作文质量,而不是只看表面特征,不然在课堂上很容易被学生钻空子。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐