香港科技大学AI眼镜考试实验:GPT-5.2半小时获92.5分
发布时间:2025-12-27 21:16 浏览量:3
戴着搭载了OpenAI最新发布的GPT-5.2模型的Rokid智能眼镜,参加香港科技大学本科期末考试,能考出什么水平?香港科技大学张军教授和孟子立教授团队主导的这场实验给出了答案:AI系统在《计算机网络原理》这门大三专业课的期末考试中,获得了92.5分(满分100分)的成绩,远超班级72分的平均分,且仅用时30分钟,而考试规定时长为3小时。
该实验中的最高分仍由人类学生获得——97.5分,但AI的表现已足够引发行业对人工智能能力边界与教育评估方式的深入讨论。
这场实验发生在香港科技大学,该校在人工智能研究领域一直走在国际前沿。不久前,该校团队还发布了关于AI如何通过“零RL训练”学会深度思考的研究。
实验选择的是计算机学院大三学生的专业核心课《计算机网络原理》的期末考试。考试内容涵盖网络协议、路由算法、网络安全等专业知识点,需要综合理解和应用能力。
实验团队使用了最新发布的Rokid Glasses,这款重量仅49克的智能眼镜集成了AI交互、拍摄和显示功能,是全球少数兼具这些能力的全功能AI+AR眼镜之一。
值得注意的是,实验中使用的GPT-5.2模型被OpenAI CEO山姆·奥特曼形容为“口袋里的随时可求助的博士”,它在一体化、多步骤任务处理和推理能力上都有显著提升。
这款AI眼镜实现考试功能的关键在于其独特的硬件架构和软件生态。镜片上集成的Micro LED显示引擎,能直接将信息投射到用户视野中,形成虚拟屏幕。
眼镜内置的1200万像素摄像头能够捕捉试卷内容,并通过专门优化的意图分类模型在2毫秒内识别用户需求。在考试场景中,眼镜会将拍摄到的题目传送给集成的GPT-5.2模型进行分析。
眼镜并非依赖单一模型,而是集成了通义千问、DeepSeek等多款大模型,能够根据任务类型智能分配处理。这种多模型协同工作的架构,使得设备具备高度的AI扩展性和场景适应性。
特别值得关注的是,该眼镜的香港版已支持广东话语音操作,这体现了技术对地域文化的适应性。这种本地化功能可能为未来AI在教育场景中的应用提供了新思路。
GPT-5.2在这次考试中的表现,反映了当前大模型在特定领域的能力水平。92.5分的成绩表明,AI在计算机网络领域的知识掌握和问题解决能力已经达到相当高的水平,能够处理需要多步骤推理的专业问题。
事实上,奥特曼曾提出一个评估AI智力水平的新指标:关注AI处理需要人类长时间思考问题的能力。他指出,GPT-5等大模型处理问题的“思考时间范围”已经从几分钟提升到了一个半小时。
然而,香港科技大学团队的另一项研究揭示了AI的能力边界。他们推出的MATP-BENCH基准测试显示,多模态大模型在几何定理证明等需要复杂逻辑推理的任务上表现仍然有限,尤其是在需要添加辅助线等创造性解题步骤时。
该研究发现,模型在“看懂题目”和“构建证明”之间存在明显的能力差距。虽然模型能将图文信息转化为形式化定理,但在构建完整证明时仍面临重大挑战。
这场实验引发的讨论远超技术层面,直击高等教育的核心评估方式。当AI能够在30分钟内完成需要3小时的考试并取得优异成绩,传统以知识记忆和理解为重点的考试模式正面临前所未有的挑战。
香港科技大学团队此前关于AI学习机制的研究提供了重要启示。他们发现,AI通过“零RL训练”能够自发展现验证、反思等高级认知行为,甚至出现“顿悟时刻”。有趣的是,预训练反而会限制AI的探索能力。
这一发现对教育评估改革具有启发意义:传统的知识灌输和标准化测试,可能同样会限制学生的探索能力和创造性思维。未来的教育可能需要更注重思维过程而非结果,更关注问题解决能力而非知识记忆。
与此同时,AI眼镜这样的设备可能改变学习方式。奥特曼认为,未来的AI需要能够提供全天候、主动的“AI伴侣”体验,而眼镜等可穿戴设备是实现这一目标的关键硬件。
面对AI在教育领域的快速渗透,教育者和政策制定者需要重新思考人才培养的目标和方法。奥特曼直言,熟练掌握AI工具将成为这一代年轻人最重要的技能之一。
然而,在智力可能被AI超越的未来,人类自身的价值将更加凸显。奥特曼指出:“尽管AI在智力上可能超越人类,但人类对真实人际关系的渴望是根深蒂固的。我们会继续关心真实的人。”
香港科技大学的这次实验可能只是开端。随着AI眼镜等设备从极客玩具走向大众工具,教育领域将面临更深层次的变革。
未来的教育可能需要更加注重培养AI难以替代的能力:创造性思维、复杂问题解决、人际沟通和伦理判断。而考试评估方式,可能会从单纯的知识测试,转向更多关注思维过程和创新能力的综合评价。
香港科技大学实验室内,那副刚刚参加完期末考试的AI眼镜静静地躺在桌面上。不远处,几位教授正激烈讨论着如何调整下学期的课程设计和考核方式。
一位参与实验的研究人员表示,他们计划将实验范围扩大到更多学科,观察AI在不同类型考试中的表现。而教育学院的几位教授已经开始设计一系列新的评估方法,试图在知识检测与思维培养之间找到新的平衡点。
眼镜镜片上,最后一道关于网络路由协议的题目解析正在缓缓淡去,如同传统教育评估方式正在经历的缓慢而深刻的转型。