戴上“眼镜”的Kimi竟变聪明了

发布时间：2025-01-17 16:35 浏览量：135

视觉思考版Kimi来了

最近陆陆续续有玩家注意到，Kimi主界面左侧的工具栏中间出现了一个戴眼镜的蓝色头像，点击后即可切换到Kimi 视觉思考版对话窗口（如图1）。

Kimi发布的视觉思考模型k1基于强化学习技术，能够直接处理用户输入的图片信息进行思考推理。相较于以往必须借助光学字符识别（OCR）或其他视觉模型进行处理的方式，k1在信息处理上的能力显得更加原生和高效。据官方介绍，k1模型的训练分为预训练和强化学习后训练两个阶段，这种结合对提升模型的综合能力至关重要。

目前，用户可以在最新版“Kimi智能助手”的Android和iPhone手机App以及网页版kimi.com上体验到这一新功能。用户只需在App或网页版中找到“Kimi视觉思考版”，即可通过拍照或上传图片进行体验。

解题能力测试

“知其然，更要知所以然”——据月之暗面官方透露，视觉思考版Kimi不仅能够给出答题结果，还能完整展示推理思维链CoT，让用户清晰地看到模型思索答案的全过程，这让人非常好奇该版本的Kimi在解题答题上的表现，这里选择一道带有图形的数学题目，看视觉思考版Kimi能否顺利解答。上传图片后，下达“帮我解答这道题”的指令（如图2）。

从答题结果来看，视觉思考版Kimi给出了非常详细的思考过程，并在一番推论后给出答案，不过最后一句“希望这是正确的！”多少有些没有底气，事实上，对于七年级相对复杂的填空压轴题，大部分AI实际上很难给出正确答案，不过视觉思考版Kimi对思考过程的展示还是让人眼前一亮，相比通过比对直接从数据库中搜出答案，过程的展示一定程度上能给玩家启示。

数学之外，物理、化学等理科题目，视觉思考版Kimi同样会在解题时给出推理过程，这样的解题模式显然有些抢作业帮、小猿搜题等拍照搜题软件的“饭碗”了。

进阶的拍照识图功能

对于具备多模态技术的大模型而言，拍照识图属于基本功能，但视觉思考版Kimi却显得有些不同。上传一张饭菜照片后，配以“这是什么菜？热量多少”的指令（如图3）。

从结果来看，视觉思考版Kimi首先对菜的材料进行了分析，并根据分析得出的材料进行热量拆解和计算，俨然健身小助手。

实际上，对于视觉思考版Kimi识图能力的运用，类似MBTI推测这样的题目更合适一些，用户可以将自己常听的播客频道列表发送给视觉思考版Kimi，让其帮忙推断朋友的职业和MBTI （如图4）。

从测试结果可以看到，视觉思考版Kimi先是分析我听的音乐类型，再由音乐类型匹配MBTI，再根据我的音乐风格偏好做出推测。

经过上面的测试我们发现，视觉思考版Kimi最大的意义在于实现了端到端的图像理解和思考能力。模型可以直接处理用户输入的图像信息并进行思考得出答案，不需要借助外部的OCR或额外视觉模型进行信息处理，不仅提升了人工智能在图像理解和多模态交互方面的能力，还为未来的智能应用开辟了新的可能性。

标签：眼镜 kimi 聪明

上一篇：离婚3年后，陈思诚佟丽娅高调官宣：我们都被骗了！
下一篇：近视手术并非年轻人专利，母女二人成功摘镜

戴上“眼镜”的Kimi竟变聪明了

相似文章

资讯分类

热门资讯

热门标签

热门产品