Rokid×火山引擎：AI让AR眼镜成为消费级产品

发布时间：2025-07-18 19:36 浏览量：46

今年，一场把发言稿“藏”在 AR 眼镜上的脱稿演讲，让灵伴科技这家杭州科技公司及其产品 Rokid Glasses 走进更多人的视线。

当 AR 眼镜遇上 AI，Rokid Glasses 凭借「看得见的智能」，还在发挥更大的作用。戴上 Rokid Glasses 眼镜，用户可以和眼镜上的 AI 助手对话，结合眼镜“看”到的现实场景，直接处理信息或解锁服务。

比如，当用户拎着大包小包穿梭在菜场需要付款时，直接说“乐奇，付钱10元”，Rokid Glasses“看一下”收钱码，用户表示“确认支付”后，即可完成付款。“看一下”就能完成支付服务，省去了掏出手机、开屏、点选、扫码的繁琐过程，类似的便捷体验让“AI+AR 眼镜”作为移动终端入口有了更大的想象空间。

新体验背后，Rokid Glasses 通过接入豆包大模型，让 AI 以最自然的方式融入现实场景，让 AI 的分析结果能够直观呈现在用户视野中，突破虚拟与现实的界限，让 AI 真正成为人们工作生活的得力助手。

豆包语音大模型

让乐奇AI助手交互更自然

AR 眼镜带来的显示功能，让 AI 释放更大的价值。AI 可以在不打断现实场景的情况下显示虚拟屏幕，理解用户问题、回答问题、做信息和任务处理等。

想象一下，生日会上伙伴相聚的时刻，只需要跟眼镜里的 AI 助手讲一句「录下这个瞬间」，眼镜就能记录下你的视角下最珍贵也最自然的景别和场景。日常生活中，用户也可以跟 Rokid Glasses 中的 AI 助手聊天、还可以随时随地调出 APP 比如微信回复消息等。

便捷的语音交互背后，Rokid Glasses 通过接入豆包语音大模型和豆包大语言模型，形成了独特的交互解决方案。当用户与眼镜中的乐奇 AI 助手对话时，乐奇将用户的语音转换为语言，经由豆包大模型理解和推理后再转换成语音回复给用户。

整个过程，火山引擎帮助乐奇 AI 助手大幅优化了数据链路的效率，实现了极速响应与成本优化。在火山引擎的支持下，乐奇语音解决方案可以边输入边合成，也可以将长语音输入进行分段处理，避免一次性传输导致的回复时间过长。用户可在语音生成过程中随时打断或调整指令（如“声音再大一点”），这种灵活性极大提升了交互自然度。

同时，豆包大模型1.6 flash 版本 per token 延迟低至10ms 内，加上火山引擎的边缘网关技术，使 Rokid Glasses 在复杂网络环境下保持稳定交互。豆包大模型让 Rokid 的语音助手更加具人格化特征。例如，用户在使用 AR 导航时，语音提示可根据路况变化调整语气（如“前方急转弯，请小心！”）。

携手火山引擎，Rokid 不仅优化了其 AR 眼镜内置 AI 助手的数据链路，还提升了语音识别的准确率和自然语言理解的深度。此外，豆包大模型的成本优势也显著降低了 Rokid Glasses 大规模调用的成本，为 Rokid 的消费级用户带来更具性价比的体验。

豆包·视觉理解模型

让AI眼镜更懂用户

除了语音模型，AR 眼镜还可以利用视觉理解模型实现更大的价值。比如，用户可以一边参观博物馆，一边问问眼镜里的 AI 助手，眼前的展品有哪些故事和历史背景；在出国旅游场景中，用户可以唤醒眼镜上的 AI 助手来呈现菜单的中文翻译版；视障用户则可以让眼镜上的 AI 助手看看面前食品的保质期。在这些场景中，智能眼镜对多模态理解模型有较高要求，这尤其体现在对手势识别、物体识别等方面的准确性方面。

为了结合多模态理解能力，更好地将 AI 分析结果与用户所处的真实物理环境进行叠加，Rokid Glasses 接入豆包·视觉理解模型，来对用户眼前的现实场景进行内容理解和推理。比如，乐奇 AI 助手可以通过眼镜上的摄像头实时捕捉物体或文本（如菜单、路牌），豆包大模型识别、理解并即时翻译并生成语音播报，形成完整解决方案，解决跨语言沟通障碍。当前，豆包·视觉理解模型可识别超2,000种物品，可满足用户在旅行、办公等场景的需求。

当前，Rokid 与火山引擎在多项大模型产品中展开全面合作，打造了新一代 AIOS 解决方案，来帮助用户理解现实世界、实时对话、做知识问答等等，探索 AI+AR 成为新一代硬件平台的新空间。

未来，Rokid Glasses 将进一步接入更多模态的豆包大模型，并携手抖音内容生态，提升 Rokid 生态应用的用户体验，来构建“硬件+内容+服务”的全链路生态。

标签：眼镜 rokid ar眼镜火山乐奇

Rokid×火山引擎：AI让AR眼镜成为消费级产品

相似文章

资讯分类

热门资讯

热门标签

热门产品