把AI眼睛藏进耳机中，华盛顿大学找到了智能眼镜之外的另一条路

发布时间：2026-04-15 22:53 浏览量：53

你对着一包韩文零食说：“帮我翻译一下。"一秒钟后，耳机里传来AI的声音，把包装上的字逐一读给你听。完成这件事的，不是什么科幻头显，而是一副普通的无线耳机。

华盛顿大学艾伦计算机科学与工程学院的研究团队在4月14日于巴塞罗那举行的CHI 2026会议上，正式发布了他们的原型系统VueBuds，这是全球首个将微型摄像头集成进现成无线耳机的AI视觉交互系统。用户只需用语音提问，系统便能分析眼前场景并实时作答，翻译文字、识别物品、回答关于周围环境的基本问题。

这个问题，团队负责人、教授夏姆·戈拉科塔给出了一个相当务实的回答。

智能眼镜和AR头显已经存在多年，但大众普及率始终低迷。原因很简单：很多人不习惯戴眼镜，而现有的智能眼镜普遍存在隐私顾虑，因为它们拍摄高分辨率视频并上传至云端处理，旁观者根本无从判断自己是否被录制。

耳机则是另一回事。全球有数十亿人每天佩戴无线耳机，它已经成为现代人身体的一部分，完全不引人注意。戈拉科塔的逻辑是：与其说服人们接受一个新设备，不如把新能力塞进他们已经在用的设备里。

当然，把摄像头塞进耳机不是一件轻松的工程任务，挑战从一开始就摆在桌上。

摄像头的功耗远高于麦克风，智能眼镜里那种高分辨率摄像头根本无法在耳机的电池容量下运行。蓝牙的传输带宽也不支持连续视频流。团队的解决方案是彻底降低标准：用一颗米粒大小的低功耗摄像头，只拍黑白静态图像，然后通过蓝牙传输到手机，由手机上的小型本地AI模型处理。

这个方案听起来像是妥协，但实际效果出乎意料地好。

VueBuds的每副耳机各装一颗摄像头，两颗同时工作，视场角在98到108度之间，覆盖用户正常视线范围内的绝大多数场景。当物体距离小于20厘米时会出现轻微盲区，但这在日常使用中几乎不构成问题，没有人会把物品凑到离脸两厘米的地方去辨认。

两颗摄像头带来了另一个问题：同时处理两张图像会让响应时间从一秒延长到两秒，这个差距在用户体验上相当明显。团队的解决方式是让系统将两张图像“拼接"成一幅，识别重叠区域后合并，再交给AI统一处理。这个步骤把响应时间压回到一秒以内，恰好处于用户感觉“实时"的心理阈值边缘。

所有图像处理均在本地设备完成，不上传云端。系统录制时会点亮一盏小指示灯，用户可以随时删除刚刚拍摄的图像。这套设计在功能实现和隐私保护之间找到了一个平衡点，而这恰恰是智能眼镜产品长期难以解决的核心矛盾。

团队没有回避与市面上已有产品的直接对比。他们招募了74名参与者，让VueBuds和Ray-Ban Meta智能眼镜在相同任务下正面较量。

结果颇具说服力。尽管VueBuds使用的是低分辨率黑白图像，而Ray-Ban拍摄的是由云端处理的高分辨率彩色图像，两者的整体表现相当。在翻译任务上，参与者甚至更偏好VueBuds的输出结果；Ray-Ban在计数物体方面略占优势，这与图像分辨率的差异直接相关。

另一组16人的实地测试显示，VueBuds在翻译和识别物品时准确率达到83%到84%，识别书籍标题和作者姓名时更达到93%。对于一个使用通用语言模型、低分辨率黑白图像、完全本地处理的原型系统来说，这个数字相当有说服力。

研究团队坦承，当前版本仍有明显局限。无法识别颜色是最直接的约束，彩色摄像头的功耗目前还超出耳机电池的承受范围。团队正在探索更节能的彩色传感方案，并计划为具体使用场景训练专用AI模型，而非继续依赖通用大语言模型。

主要研究者金马鲁奇明确点出了两个最具潜力的应用方向：为视力障碍或失明用户朗读书籍和文字，以及为旅行者提供实时翻译。这两个场景都有真实且迫切的需求，也都是现有解决方案覆盖不足的领域。

VueBuds代表的不只是一个产品原型，它更像是一种设计哲学的宣言：最好的技术，是那些悄无声息融入日常生活的技术。智能眼镜还在说服人们改变习惯，而耳机早已住进了几十亿人的耳朵里。

标签：眼镜智能耳机智能眼镜华盛顿大学