戴上“眼镜”的Kimi竟变聪明了
发布时间:2025-01-17 16:35 浏览量:3
01
视觉思考版Kimi来了
最近陆陆续续有玩家注意到,Kimi主界面左侧的工具栏中间出现了一个戴眼镜的蓝色头像,点击后即可切换到Kimi 视觉思考版对话窗口(如图1)。
Kimi发布的视觉思考模型k1基于强化学习技术,能够直接处理用户输入的图片信息进行思考推理。相较于以往必须借助光学字符识别(OCR)或其他视觉模型进行处理的方式,k1在信息处理上的能力显得更加原生和高效。据官方介绍,k1模型的训练分为预训练和强化学习后训练两个阶段,这种结合对提升模型的综合能力至关重要。
目前,用户可以在最新版“Kimi智能助手”的Android和iPhone手机App以及网页版kimi.com上体验到这一新功能。用户只需在App或网页版中找到“Kimi视觉思考版”,即可通过拍照或上传图片进行体验。
02
解题能力测试
“知其然,更要知所以然”——据月之暗面官方透露,视觉思考版Kimi不仅能够给出答题结果,还能完整展示推理思维链CoT,让用户清晰地看到模型思索答案的全过程,这让人非常好奇该版本的Kimi在解题答题上的表现,这里选择一道带有图形的数学题目,看视觉思考版Kimi能否顺利解答。上传图片后,下达“帮我解答这道题”的指令(如图2)。
从答题结果来看,视觉思考版Kimi给出了非常详细的思考过程,并在一番推论后给出答案,不过最后一句“希望这是正确的!”多少有些没有底气,事实上,对于七年级相对复杂的填空压轴题,大部分AI实际上很难给出正确答案,不过视觉思考版Kimi对思考过程的展示还是让人眼前一亮,相比通过比对直接从数据库中搜出答案,过程的展示一定程度上能给玩家启示。
数学之外,物理、化学等理科题目,视觉思考版Kimi同样会在解题时给出推理过程,这样的解题模式显然有些抢作业帮、小猿搜题等拍照搜题软件的“饭碗”了。
03
进阶的拍照识图功能
对于具备多模态技术的大模型而言,拍照识图属于基本功能,但视觉思考版Kimi却显得有些不同。上传一张饭菜照片后,配以“这是什么菜?热量多少”的指令(如图3)。
从结果来看,视觉思考版Kimi首先对菜的材料进行了分析,并根据分析得出的材料进行热量拆解和计算,俨然健身小助手。
实际上,对于视觉思考版Kimi识图能力的运用,类似MBTI推测这样的题目更合适一些,用户可以将自己常听的播客频道列表发送给视觉思考版Kimi,让其帮忙推断朋友的职业和MBTI (如图4)。
从测试结果可以看到,视觉思考版Kimi先是分析我听的音乐类型,再由音乐类型匹配MBTI,再根据我的音乐风格偏好做出推测。
经过上面的测试我们发现,视觉思考版Kimi最大的意义在于实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案,不需要借助外部的OCR或额外视觉模型进行信息处理,不仅提升了人工智能在图像理解和多模态交互方面的能力,还为未来的智能应用开辟了新的可能性。