端侧模型,可能是消费级AR眼镜最需要的Killer App
发布时间:2024-08-07 22:43 浏览量:18
文 | AR研究媛
颠覆一个行业的,往往是从没见过的新物种。特别是这个行业如果一直原地踏步,它更需要去其他地方寻找“灵感”。
昨天国内融资最多的一家AR公司产品负责人有点兴奋,找到我聊了聊国内一家大模型公司刚刚开源的端侧模型,面壁小钢炮2.6,因为这款模型有消费级AR眼镜一直想嫁接的能力:在眼镜有限算力和内存限制下,实时的视频流理解和单图、多图理解能力,always-on 那种,而且不需要联网。
Github开源社区信息显示,面壁小钢炮2.6,仅仅6-7 GB 内存就可运行,它的实际效果如何,如图
端侧模型实时视频理解case 1
端侧模型实时视频理解case 2
这家国产大模型公司,其实就是前段时间闹的沸沸扬扬、被斯坦福学生抄袭的面壁小钢炮端侧模型,不过5月份被抄袭的版本是面壁小钢炮2.5,最新的2.6版本昨天在Github开源了。
端侧模型开始被大模型公司和硬件厂商重视,这让我开始渐渐体验到两个趋势:
大模型和小模型开始“分化”,各司其职。
对于消费电子厂商来说,大模型的应用 AIGC只是开胃菜,消费电子终端Agent化渐成趋势。
大模型和小模型开始“分化”国内国外的大模型公司,都在卷参数量、把规模做大,都在尝试文生视频、图生视频,在打工摸鱼最需要的AIGC能力上。面壁智能这家公司比较有趣的是,它喜欢另辟蹊径,去年年底就开始就重点发力端侧模型。
公开媒体报道,面壁联合创始人、清华副教授刘知远和他的团队,是中国最早一批预见到“大”模型有关键技术突破并且快速反应的,他和他的团队做大模型时间很早,这个超前有半年到一年半左右的时间差。刘知远在做云端大模型,追赶GPT-4的过程中发现,如果仅仅是堆砌算力和参数量,纯粹靠Scaling Law,大概率是跟在别人后面吃尾气。
刘知远提出的是大模型科学化,对大模型的底层洞察,能够在衡量一个模型Scaling基础上,给出一个相对精确的性能预期。他提出了一个衡量指标是“知识密度”,类比芯片制程不断迭代过程中晶体管密度的增长。
对于大模型,单纯追求参数量“大”,这种竞争维度比较低,太单一了,更高知识密度的“小”模型,可能才是最适合后起的大模型创业公司做纵深、做积累、挖掘护城河的方向。就像芯片制程要不断的试错,不断的积累认知,积累know-how,优化每一个工艺流程,最终提升良品率。“小”模型不断迭代,更小的参数上获得更高的性能,这是少有人率先反应过来的正确方向,因为它最终导向的就是大模型“落地”。这个“小”模型,目前看到的最大的应用方向就是端侧模型。当然面壁这家公司的另一个标签是“Agent",融合了大模型能力、具备感知记忆、自主规划、调用工具、任务执行能力的智能体,也是导向大模型“落地”。
一个形象的比喻,大模型未来应用方式更可能是“章鱼式”的。章鱼有八个附脑一个主脑,有两个记忆系统,云端大模型和端侧模型,对应的就是章鱼的“主脑”和“附脑”。面壁开源的小钢炮2.6 就是那个章鱼触手的“附脑”,这次进化出了实时视觉“理解”、单图、多图理解,物理世界推理能力有显著提升,仅仅8B的参数,在20B以下的模型中,这三项测试登顶了。
AIGC只是开胃菜,消费电子终端Agent化渐成趋势按《思考:快与慢》的论述,人的大脑有两个系统,“快”思考和“慢”思考,“快”思考负责快速的、直觉式的、固定范式知识压缩能立即给出解答的,“慢”思考面对的则是复杂、不常见的情况,需要有步骤分解、逻辑推理、综合信息缓慢给出的答案。“快”思考对应的是端侧模型,“慢”思考则对应的是云端模型。
图片来自Coatue报告
比如AI PC和AI Phone等消费电子终端应用的端侧模型。在特定的场景下,对通用性要求低,主要追求的是低延时(完成推理过程所需要的时间尽可能短)、低功耗。根据被广泛引用的Coatue 报告,大模型的训练和推理,是两个截然不同的阶段,未来大部分的AI推理需求将从云端中心逐步转移到边缘侧,形成去中心化的推理网络,Coatue 报告预计未来 90%的推理任务会发生在你的手机和PC上,对日常工作生活的任务请求进行实时响应。
小模型和端侧模型,这股风其实是从硬件厂商吹到的大模型公司。联想从23年初就开始推AI PC,三星在S24 Ultra重点加入了AI能力,微软推Copilot,法国的Mistral成为大模型的“欧洲之光”,2024 年 6 月苹果发布的个人智能系统 Apple Intelligence,直到最近 Open AI 也"跟进"做了小模型 GPT-4o mini。
以Apple Intelligence为例,从战略定位来看,Apple Intelligence 定位为系统级产品,高于 Siri等单独的功能或服务。苹果公司会将生成式 AI模型集成到iPhone、 iPad和苹果电脑的iOS系统中,在几乎所有应用中打通 AI 功能,让智能硬件从底层理解用户。
Apple Intelligence 主要在三个方面“测试”用户需求,AIGC的文字创作,AIGC图片生成,Siri语音助手向Agent个人管家演化。Apple Intelligence 其实也是大模型落地的PMF测试。
首先是智能写作,能够让用户在几乎任何场景下对文本进行改写、校对和摘要生成,包括邮件、备忘录、文稿及各类第三方 App,用户还可自定义写作风格,如“更友善”、“专业性强”、“像诗歌一样”等。文字汇总方面,用户可以在几秒钟内总结整段讲座、会议、邮件的内容。此外,还能够帮助用户自动管理消息通知。
其次是智能生图,借助于AI生图应用 Image Playground,可支持手绘、插画和动画三种风格的图片生成,内置于所有的系统 App中,如备忘录、无边记等。
以及融合了大模型能力后,Siri 和系统体验的结合加深。交互方式上,Siri 将支持文字、语音等多种模态交互。Siri 将针对用户长期的手机使用习惯进行适配,比如,将能够理解用户的碎片化表述,为连续的请求沿用语境场景,以及能够理解用户在不同 App 中的使用习惯和内容,并根据其进行操作。经过使用时长的积累, Siri将实现完全基于用户个人和设备端信息的智能化,成为用户的“贴身管家”。
总的来说,云端的大模型和设备端的大模型,云端的综合能力更强,但是只能以用户Promt的形式一问一答,被动且能力单一。设备端的大模型,离用户更近一些,能够实时处理终端生成的大量多模态数据,也可以把数据保存在设备本地,隐私性好,而且可以“接管”设备在系统层面调用各种App。
以智能手机为代表的消费电子终端集成了大量传感器Senor,生成大量的实时多模态数据,可作为大模型的“输入”。如今一部智能手机上的算力和内存越来越高,集成了大量的App,覆盖吃穿住行的各种功能,可以被大模型所调用。
感知记忆、自主规划、调用工具、任务执行,大模型落地的Agent,所有环节渐渐都能够打通,消费电子终端Agent化渐成趋势。
这其中,端侧模型是那个最大的不确定因素,也是瓶颈所在。随着大模型不断Scaling up,推理所需的计算和存储开销也在快速增长,然而终端上内存资源很有限,这就导致我们很难在终端上直接运行本地大模型。比如一个7B参数的模型大约需要14GB的内存来加载模型权重。
还有,摄像头、麦克风、dToF雷达、深度相机、陀螺仪,终端设备实时生成的各种模态数据处理,Always-On 对于计算、内存、耗电、发热的精准控制,对于端侧模型、硬件厂商均提出了很高的要求。
图为一体式消费级AR眼镜 INMO Air 2
端侧模型,其实是一场技术含量很高的、大有可为的竞赛,无论对于消费电子厂商还有大模型公司,均意义重大。