Warning
This synced copy may not be up to date.
Note
Views and interpretations here are my opinion only.
Last synced (auto): 2025-10-08 12:51:59 UTC
我最近一直在想一个问题:AI 在学校和学习中到底应该怎么用、怎么被看待。
现在老师大概分成两种。一种完全禁止 AI,觉得用了就是作弊,还会拿那些检测器一查就判定学生用了。问题是这些检测器根本不准,很多人明明是自己写的也会被误判。另一种老师知道 AI 不全是坏事,也想让学生用,但又不知道怎么判断“用了多少”算合理,所以干脆模糊处理。
其实现在 MLA 这些引用格式已经能 cite AI 了,但几乎没人真用。因为有时候 AI 只是帮忙想个结构、解释点东西,放进引用里就会被误会成整篇是 AI 写的。老师也看不懂 citation 在说什么。
我觉得 AI 是一个很好的工具,像计算器、IDE、Google 一样。它能帮人思考、解释、写代码,不该被排斥。但问题是,现在没有一个清晰的标准去表达“用了多少 AI”。学生如果用一点点都得藏着掖着,老师也只能靠感觉去判断。
我想做一个叫 “AI Scale” 的系统,这是我目前能想到的方案,因为这事真的挺复杂。它的目标不是去检测,而是帮人说清楚 AI 到底参与了多少。
可以是一个量表,比如从没用,到帮忙 brainstorm,到写了部分内容,再到几乎全由 AI 完成。
学生可以自己标注等级,也写一两句说明,比如“AI 帮我列了提纲”“AI 写了部分代码,我后面自己改过”。这样比检测器靠谱,也更公平。
这个系统的意义不只是给老师看,更是帮助大家学会怎么和 AI 一起工作。AI 不该被看成作弊的帮凶,而是一个要学会使用的伙伴。
自从 ChatGPT 问世之后,关于 AI 使用的讨论就没停过。现在世界上已经有越来越多的 AI 规范、引用方式、学术讨论,但整体还停留在探索和争论阶段。AI 怎么融入教育、怎么被认可,还没有统一答案。
我觉得这个问题值得更多人去想,也需要新的方案。
AI Scale 就是我目前想到的方向,虽然还不完善,但至少能让人开始思考这个问题该怎么解决。
我最近看到了一个叫 AI Assessment Scale(AIAS) 的项目,是 Leon Furz 和他的团队做的。它和我在想的 “AI Scale” 挺像,都是想解决学生在作业里用了多少 AI、老师该怎么评估这个问题。
AIAS 把 AI 的使用分成五个等级:
- No AI
学生完全不能用 AI,所有内容必须自己完成。
- AI Planning
可以让 AI 帮忙找资料、想想思路、列个提纲,但最终的内容得自己写。
- AI Collaboration
可以和 AI “合作”,比如让 AI 帮你修改、润色、生成部分内容,但学生要对 AI 的结果进行判断和调整。
- Full AI
AI 几乎可以参与整个任务,学生主要负责指导、挑选、整合 AI 的输出。
- AI Exploration
AI 被当作创作的一部分,学生和老师一起探索 AI 能做什么,尝试新的写作或创作方式。
这里是一个 example:
The AI Assessment Scale: From no AI to full AI
Scale Level | Description | Examples of Assessment Tasks |
1. No AI | The assessment is completed under supervision, and/or handwritten, and/or under exam conditions. | 1. Students complete a traditional multiple-choice exam on historical events. 2. Students write an in-class essay about the impact of technology on society without the use of AI tools. 3. Students solve a series of maths problems on paper during a timed examination. |
2. Brainstorming and ideas | AI can be used in the initial stages of the assessment for brainstorming and idea generation. | 1. Students use AI to generate ideas for a persuasive essay on the advantages and disadvantages of social media. 2. Students use AI tools to brainstorm potential solutions to an environmental problem in a group project. 3. Students collaborate with AI to develop innovative business ideas for a mock start-up pitch competition. |
3. Outlining and notes | AI can be used to outline entire responses or convert notes into organised ideas. | 1. Students use AI tools to create an essay outline on the factors contributing to climate change based on their research notes. 2. Students use AI to convert their handwritten notes on a novel into a structured analytical essay outline. 3. Students use AI to organise their research findings on public health policies into a clear presentation outline. |
4. Feedback and editing | AI can be used to provide feedback, self-assessment, or editing and revision. | 1. Students submit their draft essays on the ethical implications of genetic engineering to AI for feedback on structure, clarity, and persuasiveness. 2. Students use AI tools to receive instant feedback on their oral presentations and improve their delivery. 3. Students collaborate with AI to revise and edit their group research papers on the effects of globalisation on local economies. |
5. Full AI | AI can be used to generate the entire output. | 1. Students provide AI with their research and ideas, then use the AI-generated synthesis to create a comprehensive report on the future of renewable energy. 2. Students input their group discussion notes on the challenges of urban planning into AI to generate a cohesive summary. 3. Students supply AI with their design concepts and requirements to generate a visual representation of a proposed architectural project. |
他们的理念是:在布置任务前就先约定好允许的 AI 使用等级,这样老师和学生都有共识。
我觉得这个方向挺好,也很成熟,他们已经做成了框架、海报,还有研究报告支撑(我准备之后看看那份报告)。
不过问题也很明显:它只是一个 scale ,也就是说,它靠的是学生自己选择等级,没有验证机制。
学生完全可以随便选一个级别,老师也没法知道 AI 到底参与了多少。不同学科、不同任务对 AI 的使用也差别很大,一个通用的量表很难真的衡量清楚。
所以我在想,我的 AI Scale 可能可以在这个基础上再往前走一步。除了这种分级以外,还要有“过程记录”的部分,让老师能看到 AI 互动或草稿版本,让学生能更真实地展示 AI 到底帮了多少。
AIAS 是一个很好的起点,而 AI Scale 也许能让这件事变得更具体、更能落地。
我试了一下,把我学校两个 project 问了一下他们做的 AI,看看推荐是哪个 scale,这是我们的 chat,我认为还不错:
ChatGPT - Review assessment request
我在他们官网上看到了 6 篇研究报告,我让 AI 做了一个更系统的总结。下面是整理出来的要点(每条后面都给了出处):
- 他们最早发表在 JUTLP 的文章把 AI Assessment Scale(AIAS)清楚地定义成一个“先说清楚、再去做”的评估框架:老师根据学习目标选定允许的 AI 使用层级,从 No AI 到 Full AI / Exploration,并把要求写进任务说明里,目的是提高透明度、而不是做事后检测。文章也强调,AIAS 本质上是帮助重写评估与政策的“共同语言”,可以在高等教育,也可以在 K-12 使用。
JUTLP_AI_Assessment_Scale_final.pdf
- 英国越南大学(BUV)的学校级试点给出了比较直观的证据:在用 AIAS 重设计作业、配合教师培训和明确政策后,跟 GenAI 相关的学术不端显著下降,学生会更主动、作品也更有多模态探索。作者总结,关键不在“抓”,而在“让学生知道怎样合规地用、怎么说清楚自己用了多少”。
- 一篇 2025 年的评论专门谈“哪些做法是错的、该怎么改”:比如把带回家作业生硬标成 No AI、只改标签不改任务、忽视可及性与公平、用控制思路逼出“表演式合规”。作者建议用“以设计代替检测”的路线:按学习结果选层级、要求轻量级过程证据、在评分标准里纳入判断力与学生的 voice、分阶段收集证据,并事先规划设备与工具的可获得性。
3535-Article Text-10147-3-10-20250913.pdf
- 语言类里有一个专门的改编版本 EAP-AIAS:因为 EAP 同时评估语言能力与学术社会化,所以更需要平衡“真实性”和“可判别性”。论文建议在写作、展示、研究等任务里明确允许的层级,要求前后版本或反思说明来呈现过程,并把“评估学生的 evaluative judgement(判断与取舍)”当成重点能力。
- 另一个面向 EFL 的实践文章,把更新后的 AIAS 拿到课堂里用,给出写作与翻译教学的具体路径(尤其是 Level 2、3、4):允许用 AI 头脑风暴、提纲、语言层面的改写与反馈,但配套过程证据与反思,目的是提升 AI 素养与真实能力,而不是让 AI 替代学习。
- 最新一篇 JUTLP 的“再想象”把框架进一步非层级化,明确 AIAS 是“沟通工具 + 任务重设计框架”,并补充了面向未来的 AI Exploration 层级;同时更强调公平、隐私、披露与数据处理等伦理要求,提醒学校用公开透明替代“安全剧场”。
JUTLP+Final+Perkins_JUTLP_2025.pdf
我自己的体会是:这 6 篇报告几乎都在告诉我们——别再把 AI 当成“要不要”的问题,而是把它当成“怎么设计进去”的问题。对我想做的 AI Scale 来说,直接可用的做法有几条:一是在任务开始前就选层级并写清楚边界;二是让学生交轻量的过程证据(关键 prompt、版本对比、简短反思);三是在评分表里加入“判断力与取舍”的分项;四是提前说明披露与数据伦理;五是按学科提供不同的模板。这样,老师不用猜、学生不必藏,大家都能更清楚地表达“我用了多少 AI、用在了哪里、为什么这样用”。
但我很快发现,这个问题不仅仅是“AI 用了多少”的技术问题,更是一个“人怎么看 AI”的问题。
很多同学其实会用 AI,但不敢承认;很多老师允许学生用,却又担心被滥用。
结果 AI 不仅没带来公平,反而制造了新的信息差。会用的人越来越强,不会用的人被甩得越来越远。
我也看到了像全国大学生数学建模竞赛这样的新规定,要求选手必须公开说明 AI 使用情况,甚至提交交互记录。这说明教育界已经开始意识到透明和规范的重要性。
但问题是,大多数人还不知道怎么做——他们要么完全不用,要么偷偷用。
所以我想把 “AI Scale” 发展成一个更完整的体系,不仅是一个评估量表,而是一个让 AI 使用变得透明、可信、可学习的系统。
它可以包括三部分:
- 认知与文化:通过研究调查,让我们真正了解不同人群对 AI 的看法与恐惧;
- 政策与规范:制定公开模板,让“如何说明 AI 使用”有标准可循;
- 工具与系统:开发一个平台,让学生可以上传 prompt、生成 AI 使用报告,甚至自动匹配竞赛或课程要求。
我希望 “AI Scale” 不只是一个教育科技项目,而是一个推动公平与理解的社会实验。
它既是研究(了解 AI 对学习文化的影响),也是工具(帮助师生建立信任),更是理念(让 AI 的使用成为被认可的学习能力)。
今天我妈分享给我了两个视频:
- 第一个视频:
总结:
这项实验邀请了 54 名大学生,分为三组写 SAT 文章:
一组完全用 ChatGPT 写(AI 组),一组只能用 Google 搜索(搜索组),一组完全不用任何工具(纯大脑组)。研究人员用脑电图设备记录他们在写作过程中的大脑活动。
结果发现:
- AI 写作导致记忆和思考参与下降。
使用 ChatGPT 的学生在交完文章后几乎无法复述内容,说明他们在写作时并没有真正“动脑”。
- 长期依赖 AI 会造成“认知负债”。
当 AI 组后来被要求不用 ChatGPT 独立写作时,他们的大脑活动依然明显低于其他组,像肌肉萎缩后的“思维惰性”。
- 学生的创作“主权”在丧失。
被问“这篇文章是谁写的”时,AI 组很多人犹豫甚至否认是自己的,说明他们对作品的归属感变弱。
- AI 生成的作品缺乏原创性。
AI 文章更趋同、更保守,而纯手写组更有独立思考和创造性。
研究者的结论不是“不能用 AI”,而是要学会正确地用:
- 先自己思考,再用 AI 辅助;
- 让 AI 当“教练”而不是“替身”;
- 保留足够的非屏幕时间,让大脑恢复活跃。
原研究报告:
“MIT 的 “Your Brain on ChatGPT” 研究通过 EEG(脑电图)技术,对三组写作参与者(使用 LLM 辅助组、使用搜索引擎组、纯脑力组)在连续几次写论文的过程中进行对比。研究发现,随着外部辅助工具(尤其是 LLM)介入,参与者的脑网络连接度整体下降;而在跨组切换时(如原来用 LLM 的人在后期被要求不使用工具,或原本不用工具的人后来尝试用 LLM)会出现认知负荷与回忆力的显著变化。他们在访谈中还发现,用 LLM 的写作者对自己作品的“拥有感”较低。研究提示:尽管 LLM 帮助在短期内可能提高效率,但长期使用可能会影响认知参与度、记忆与学习深度。” --ChatGPT
- 第二个视频:
我以前一直以为,未来的人大概会分成两种:一类是会用 AI 的人,另一类是不会用 AI 的人。
但看了这个视频后,我发现事情没这么简单。原来“会用”本身也要再分两种:一种是驾驭 AI 的人,另一种是被 AI 驾驭的人。前者能让 AI 成为他们思考和创造的延伸,他们依然掌握主动权。而后者则慢慢把判断、表达和学习的过程都交给了机器,变得越来越依赖,也越来越被动。这让我意识到,AI 的问题从来不是“能不能用”,而是“谁在主导”。它既可以放大人的能力,也可能削弱人的思考。真正的界线,不再是“会不会用 AI”,而是用得好不好、能不能保持思考力。
这也是我想继续把 AI Scale 做下去的原因。我希望它不仅仅是一个让老师了解学生用了多少 AI 的工具,更是一个帮助学生学会怎么正确地用 AI 的系统。
AI 不该替代思考,而应该让思考变得更深。