把AI眼睛藏进耳机中,华盛顿大学找到了智能眼镜之外的另一条路

发布时间:2026-04-15 22:53  浏览量:2

你对着一包韩文零食说:“帮我翻译一下。"一秒钟后,耳机里传来AI的声音,把包装上的字逐一读给你听。完成这件事的,不是什么科幻头显,而是一副普通的无线耳机。

华盛顿大学艾伦计算机科学与工程学院的研究团队在4月14日于巴塞罗那举行的CHI 2026会议上,正式发布了他们的原型系统VueBuds,这是全球首个将微型摄像头集成进现成无线耳机的AI视觉交互系统。用户只需用语音提问,系统便能分析眼前场景并实时作答,翻译文字、识别物品、回答关于周围环境的基本问题。

这个问题,团队负责人、教授夏姆·戈拉科塔给出了一个相当务实的回答。

智能眼镜和AR头显已经存在多年,但大众普及率始终低迷。原因很简单:很多人不习惯戴眼镜,而现有的智能眼镜普遍存在隐私顾虑,因为它们拍摄高分辨率视频并上传至云端处理,旁观者根本无从判断自己是否被录制。

耳机则是另一回事。全球有数十亿人每天佩戴无线耳机,它已经成为现代人身体的一部分,完全不引人注意。戈拉科塔的逻辑是:与其说服人们接受一个新设备,不如把新能力塞进他们已经在用的设备里。

当然,把摄像头塞进耳机不是一件轻松的工程任务,挑战从一开始就摆在桌上。

摄像头的功耗远高于麦克风,智能眼镜里那种高分辨率摄像头根本无法在耳机的电池容量下运行。蓝牙的传输带宽也不支持连续视频流。团队的解决方案是彻底降低标准:用一颗米粒大小的低功耗摄像头,只拍黑白静态图像,然后通过蓝牙传输到手机,由手机上的小型本地AI模型处理。

这个方案听起来像是妥协,但实际效果出乎意料地好。

VueBuds的每副耳机各装一颗摄像头,两颗同时工作,视场角在98到108度之间,覆盖用户正常视线范围内的绝大多数场景。当物体距离小于20厘米时会出现轻微盲区,但这在日常使用中几乎不构成问题,没有人会把物品凑到离脸两厘米的地方去辨认。

两颗摄像头带来了另一个问题:同时处理两张图像会让响应时间从一秒延长到两秒,这个差距在用户体验上相当明显。团队的解决方式是让系统将两张图像“拼接"成一幅,识别重叠区域后合并,再交给AI统一处理。这个步骤把响应时间压回到一秒以内,恰好处于用户感觉“实时"的心理阈值边缘。

所有图像处理均在本地设备完成,不上传云端。系统录制时会点亮一盏小指示灯,用户可以随时删除刚刚拍摄的图像。这套设计在功能实现和隐私保护之间找到了一个平衡点,而这恰恰是智能眼镜产品长期难以解决的核心矛盾。

团队没有回避与市面上已有产品的直接对比。他们招募了74名参与者,让VueBuds和Ray-Ban Meta智能眼镜在相同任务下正面较量。

结果颇具说服力。尽管VueBuds使用的是低分辨率黑白图像,而Ray-Ban拍摄的是由云端处理的高分辨率彩色图像,两者的整体表现相当。在翻译任务上,参与者甚至更偏好VueBuds的输出结果;Ray-Ban在计数物体方面略占优势,这与图像分辨率的差异直接相关。

另一组16人的实地测试显示,VueBuds在翻译和识别物品时准确率达到83%到84%,识别书籍标题和作者姓名时更达到93%。对于一个使用通用语言模型、低分辨率黑白图像、完全本地处理的原型系统来说,这个数字相当有说服力。

研究团队坦承,当前版本仍有明显局限。无法识别颜色是最直接的约束,彩色摄像头的功耗目前还超出耳机电池的承受范围。团队正在探索更节能的彩色传感方案,并计划为具体使用场景训练专用AI模型,而非继续依赖通用大语言模型。

主要研究者金马鲁奇明确点出了两个最具潜力的应用方向:为视力障碍或失明用户朗读书籍和文字,以及为旅行者提供实时翻译。这两个场景都有真实且迫切的需求,也都是现有解决方案覆盖不足的领域。

VueBuds代表的不只是一个产品原型,它更像是一种设计哲学的宣言:最好的技术,是那些悄无声息融入日常生活的技术。智能眼镜还在说服人们改变习惯,而耳机早已住进了几十亿人的耳朵里。