人类专家90分碾压AI:新基准让高分大模型集体大跌眼镜
发布时间:2026-04-24 22:23 浏览量:3
日常使用多模态大模型看视频时,大家常常觉得它似乎什么都懂一点,深究起来又有些答非所问。
各大视频理解榜单上高分,真实体验起来又很拉跨,为什么?
Video-MME-v2用一套全新的非线性关联计分机制把大模型拉回了现实。
2024年,Video-MME团队发布了Video-MME,重点考察模型在不同时长条件下的跨模态视频理解能力,成为包括Gemini和GPT在内众多大模型的标准评测集之一。
历经近一年打磨,Video-MME团队推出新一代评估体系,用严苛的分组连贯性测试,彻底粉碎了模型靠碎片化识别和盲猜刷榜的可能,精准勾勒出当前多模态模型的真实智力边界。
以往的视频理解基准常常只盯着特定任务,出题思路零散,很难系统刻画模型真正的理解深度。遇到一段几十分钟的视频,模型可能只是恰好认出了某几帧画面里的关键物体,就能在单项选择题里蒙对答案,给使用者营造出一种无所不知的错觉。
为了测试真正的能力,必须回到原点,重新拆解视频理解的演进过程。新基准将测试维度划分为三个循序渐进的层级。
最基础的一层是多点信息聚合,对应模型找信息的能力。系统会考察模型对视频帧、Audio(音频)、字幕等分散线索的检索与提取。
往上一层叠加了时序信息理解。视频不同于照片的本质在于时间流逝带来的动态演变,模型需要准确解析状态变化、动作序列以及事件逻辑等强关联信息。
最高一层直接通向时序复杂推理。模型要在感知多模态时序信息的基础上,结合世界知识与社会常识,去应对真实场景里的多步推理挑战。
系统通过这三层架构,把考题分门别类,精准定位模型的能力短板。
考题有了,怎么判卷直接决定了基准的含金量。传统散点评测范式下每一题独立计分,互不干扰,偶然答对的概率极大。新基准彻底抛弃了这种做法,引入了分组式评估机制,把问题按能力一致性与推理连贯性组织成多个包含4道题目的任务组。
在能力一致性任务组里,考核重点是模型对单一能力的真实掌握度。
系统会围绕同一个知识点,从局部到全局连环发问。针对视频计数能力,题目会依次询问单帧里的运动员人数、单一片段里的动作种类、跨片段同一个动作的执行次数,最后追问整个视频的片段总数。
系统统计模型答对的数量N,并把得分定义为(N/4)²。靠运气蒙对一两题只能拿到极低的分数,只有全部答对才能拿满分。这种非线性增益的计分规则,极其直白地奖励了稳定且一致的真本事。
推理连贯性任务组则更像是一场逻辑审讯。系统不再只看最终答案,而是在推理链条的关键节点上设置递进式考点。剧中人物假死瞒天过海,系统会按顺序提问。
先问模型能否识别死亡表象的线索,再问有没有捕捉到反常细节,接着要求推断假死的目的,最后才让模型给出终局结论。
在这个组别里,计分规则更加残酷,系统引入了首错截断机制。只要模型在推导过程中的任意一个节点出错,后续就算瞎猫碰上死耗子答对了,也不再计分。逻辑断裂带来的伪正确被彻底清理出局。
在如此严苛的审视下,各路前沿大模型的真实水平暴露无遗。
模型性能排名:
强如Gemini-3-Pro,距离人类专家90.7分的碾压级表现依然遥不可及。
为了保证考题不被大模型本身的先验知识污染,构建这个包含800个视频的数据集耗费了惊人的3300个人工时。
数据源头经过了精心挑选。80%以上的视频发布于2025年及以后,近40%发布于2025年10月之后。
团队人工剔除了经典影视作品和头部博主内容,彻底掐断了模型靠记忆效应作弊的途径。视频素材覆盖了体育竞技、生活娱乐、艺术文艺、知识教育4大类,衍生出31个二级类别,平均长度约10.4分钟,53%在10分钟以内。
不仅视频内容新,质量门槛也极高。84.3%的视频观看量超过1万次,均值高达483万次,从源头滤掉了低劣噪声。
12名人类专家负责全流程标注,不仅设计问题,还要为每道题精心打磨8个选项。每个问题除了常规干扰项,还专门针对真实答案量身定制了极具迷惑性的选项,逼迫模型展现出细粒度的辨析能力。
问题设计完成后,50名独立专家入场开启车轮战式的交叉盲测。质检团队拿着Gemini-3-Pro在纯文本模式下做题,只要发现题目不看视频光靠读字就能猜出答案,就立刻打回重造。
历经多轮交叉复核、盲测与修正,最终确立了极其统一的难度梯度,问题与选项的长度在四道连环题中呈现完美的递增规律。
新规则一出,高分泡沫应声破裂。Gemini-3-Pro和Gemini-3-Flash在传统的逐题平均准确率(Avg Acc)下,分别能拿到66.1%与61.1%的及格分数。一旦切换到非线性计分(Non-Lin Score),成绩瞬间腰斩至49.4%与42.5%。
Non-Lin Score与Avg Acc对比:
两个分数的比值直接揭示了模型的鲁棒性。小模型如LLaVA-Video-7B的比值仅为40%左右,极容易在同一个问题组里出现零散命中,根本无法稳定输出。
在题组深入的过程中,模型的底牌也被彻底看穿。
在能力一致性测试中,强模型的准确率几乎没有波动,展现出较好的稳定性。但在推理连贯性测试中,随着从线索定位向因果解释步步紧逼,所有模型的准确率均呈现平稳下降的趋势。较弱的模型干脆显示出极高的随机性,答题表现起伏不定。
大热的Thinking(思考)模式在视频理解里的表现也出人意料。
数据证明文本模态能有效激发推理能力,模型在有字幕的环境下开启思考模式,通常能获得稳定的正向增益。
一旦抽掉字幕,仅靠纯视觉画面去思考,很多模型不仅没有进步,反而出现了严重的性能倒退。当前多模态大模型的思考机制极度依赖显式的语义线索,纯视觉推理依然是一个巨大的盲区。
系统把模型的底层能力抽象为全模态信息聚合(C1)、长上下文理解(C2)与复杂推理能力(C3)三大块。
同时具备这三项能力的大型模型全面占据榜单高位。不过大参数也能产生奇妙的代偿效应。
Qwen3.5-397B-A17B-Think虽然在设计上并不显式具备全模态能力,但凭借极其庞大的参数规模带来的长上下文处理与推理优势,依然拿到了39.1分,超过了能力配置更完整但参数较小的模型。
模型能力画像与得分:
处理的视频帧数同样至关重要,Qwen3.5-397B在512帧设定下比64帧设定足足高出8.5分,长上下文吃得越多,对视频的理解就越深。
各大模型的能力雷达图更是一目了然。Gemini-3-Pro在音频融合与长视频时序推理上遥遥领先,跨模态对齐能力出众。其他偏科的模型在细粒度动作语义建模与物理规律理解上的得分甚至不足30分,连基本的物理常识都未能完全掌握。
剥去高分外衣,当前最聪明的AI,在连贯的视频逻辑推理面前依然像个步履蹒跚的学徒,通往通用人工智能的路上还有无数硬骨头要啃。
参考资料: