Rokid×火山引擎:AI让AR眼镜成为消费级产品
发布时间:2025-07-18 19:36 浏览量:30
今年,一场把发言稿“藏”在 AR 眼镜上的脱稿演讲,让灵伴科技这家杭州科技公司及其产品 Rokid Glasses 走进更多人的视线。
当 AR 眼镜遇上 AI,Rokid Glasses 凭借「看得见的智能」,还在发挥更大的作用。戴上 Rokid Glasses 眼镜,用户可以和眼镜上的 AI 助手对话,结合眼镜“看”到的现实场景,直接处理信息或解锁服务。
比如,当用户拎着大包小包穿梭在菜场需要付款时,直接说“乐奇,付钱10元”,Rokid Glasses“看一下”收钱码,用户表示“确认支付”后,即可完成付款。“看一下”就能完成支付服务,省去了掏出手机、开屏、点选、扫码的繁琐过程,类似的便捷体验让“AI+AR 眼镜”作为移动终端入口有了更大的想象空间。
新体验背后,Rokid Glasses 通过接入豆包大模型,让 AI 以最自然的方式融入现实场景,让 AI 的分析结果能够直观呈现在用户视野中,突破虚拟与现实的界限,让 AI 真正成为人们工作生活的得力助手。
豆包语音大模型
让乐奇AI助手交互更自然
AR 眼镜带来的显示功能,让 AI 释放更大的价值。AI 可以在不打断现实场景的情况下显示虚拟屏幕,理解用户问题、回答问题、做信息和任务处理等。
想象一下,生日会上伙伴相聚的时刻,只需要跟眼镜里的 AI 助手讲一句「录下这个瞬间」,眼镜就能记录下你的视角下最珍贵也最自然的景别和场景。日常生活中,用户也可以跟 Rokid Glasses 中的 AI 助手聊天、还可以随时随地调出 APP 比如微信回复消息等。
便捷的语音交互背后,Rokid Glasses 通过接入豆包 语音大模型和豆包大语言模型,形成了独特的交互解决方案。当用户与眼镜中的乐奇 AI 助手对话时,乐奇将用户的语音转换为语言,经由豆包大模型理解和推理后再转换成语音回复给用户。
整个过程,火山引擎帮助乐奇 AI 助手大幅优化了数据链路的效率,实现了极速响应与成本优化。在火山引擎的支持下,乐奇语音解决方案可以边输入边合成,也可以将长语音输入进行分段处理,避免一次性传输导致的回复时间过长。用户可在语音生成过程中随时打断或调整指令(如“声音再大一点”),这种灵活性极大提升了交互自然度。
同时,豆包大模型1.6 flash 版本 per token 延迟低至10ms 内,加上火山引擎的边缘网关技术,使 Rokid Glasses 在复杂网络环境下保持稳定交互。豆包大模型让 Rokid 的语音助手更加具人格化特征。例如,用户在使用 AR 导航时,语音提示可根据路况变化调整语气(如“前方急转弯,请小心!”)。
携手火山引擎,Rokid 不仅优化了其 AR 眼镜内置 AI 助手的数据链路,还提升了语音识别的准确率和自然语言理解的深度。此外,豆包大模型的成本优势也显著降低了 Rokid Glasses 大规模调用的成本,为 Rokid 的消费级用户带来更具性价比的体验。
豆包·视觉理解模型
让AI眼镜更懂用户
除了语音模型,AR 眼镜还可以利用视觉理解模型实现更大的价值。比如,用户可以一边参观博物馆,一边问问眼镜里的 AI 助手,眼前的展品有哪些故事和历史背景;在出国旅游场景中,用户可以唤醒眼镜上的 AI 助手来呈现菜单的中文翻译版;视障用户则可以让眼镜上的 AI 助手看看面前食品的保质期。在这些场景中,智能眼镜对多模态理解模型有较高要求,这尤其体现在对手势识别、物体识别等方面的准确性方面。
为了结合多模态理解能力,更好地将 AI 分析结果与用户所处的真实物理环境进行叠加,Rokid Glasses 接入豆包·视觉理解模型,来对用户眼前的现实场景进行内容理解和推理。比如,乐奇 AI 助手可以通过眼镜上的摄像头实时捕捉物体或文本(如菜单、路牌),豆包大模型识别、理解并即时翻译并生成语音播报,形成完整解决方案,解决跨语言沟通障碍。当前,豆包·视觉理解模型可识别超2,000种物品,可满足用户在旅行、办公等场景的需求。
当前,Rokid 与火山引擎在多项大模型产品中展开全面合作,打造了新一代 AIOS 解决方案,来帮助用户理解现实世界、实时对话、做知识问答等等,探索 AI+AR 成为新一代硬件平台的新空间。
未来,Rokid Glasses 将进一步接入更多模态的豆包大模型,并携手抖音内容生态,提升 Rokid 生态应用的用户体验,来构建“硬件+内容+服务”的全链路生态。