从机器人到眼镜,具身智能如何改变我们&

发布时间:2025-12-20 09:34  浏览量:3

2025年智能眼镜突然成了科技圈的香饽饽,Meta的Ray-Ban智能眼镜销量悄悄破了百万,国内这边阿里夸克、百度小度、小米、理想汽车的Livis也都赶着趟儿发布新品。

IDC预测今年全球能卖出1451.8万台,中国占了290.7万台。

热闹归热闹,有个问题一直没人说透,这玩意儿到底靠什么真正走进普通人生活?雷鸟创新的AI负责人程思婕,这位30岁出头的清华计算机博士,可能藏着答案。

程思婕的职业轨迹挺有意思,本科时赶上BERT语言模型爆发,一头扎进NLP研究,后来去美团、上海人工智能实验室实习,再到腾讯RoboticsX搞机器人,绕了一圈,2023年落脚雷鸟创新做智能眼镜。

问她为啥转方向,她半开玩笑说,"本来想做通用机器人改变世界,但后来发现商业化周期实在太长。"

机器人行业有个绕不开的坎硬件控制瓶颈,程思婕见过太多实验室里的"完美机器人",一到真实场景就掉链子。

机器人要学人类动作,得先'看见'人类怎么动。

但它的'眼睛'装在身上,视角跟人差太远。

反观智能眼镜,往鼻梁上一架,天然就是第一人称视角,跟着脑袋动,看见的世界和人眼几乎同步。

全球玩家的打法很不一样,Meta的Ray-Ban能卖爆,靠的不是啥黑科技,而是基础体验扎实。

用户反馈最多的是"蓝牙连得稳""续航能撑一天",这种稳定性在消费电子里太重要了。

国内厂商则集中在翻译、会议纪要、导航这些共识场景,功能都大同小异。

程思婕觉得,"现在大家基础功能都能做到80分,真正的机会在90分以上的体验找到那个'哇,没它不行'的场景。"

智能眼镜的战场,表面是功能比拼,实则是对"第一人称视角"价值的理解差异。

Meta赌的是"无感佩戴",国内厂商抢的是"效率工具",但程思婕团队想的是更深层的让AI真正"理解"人是怎么看世界的。

"第一人称视角的核心不是'拍下来',是'同步感知'。"

程思婕拿起雷鸟X2演示,转头时镜片里的画面跟着动,低头看桌子,视角自然下移,"这跟手机拍照完全两码事,它得跟你的头部姿态、甚至眼球运动保持一致,这才叫具身智能。"

眼动追踪技术就卡在这儿,理论上追踪眼球能准确定位注意力,但人眼其实一直在无意识抖动,这些"噪声"让数据变得混乱。

我们试过让用户盯着一个点不动,结果发现哪怕刻意控制,眼球每秒还是会颤动好几次。

现在团队的折中方案是"眼动+头部姿态"双判断,虽然复杂,但至少数据干净些。

交互方式也得重新设计,智能眼镜不可能像手机那样划屏幕,语音成了主力。

雷鸟X系列的麦克风做了专门优化,两米外说话也能听清,还能分离背景噪音。

有次在咖啡厅测试,旁边有人打电话,眼镜居然准确把我的声音摘了出来。

程思婕对这个技术细节挺得意,硬件和算法得绑在一起琢磨。

雷鸟的AR1芯片专门为智能眼镜设计,算法团队得跟着硬件参数调模型。

以前做纯软件,模型精度差点还能靠数据补,做硬件就不行,摄像头角度偏1度,识别准确率可能掉20%。

这种"敬畏硬件"的思路,让他们和阿里通义千问的合作也很特别不是直接用现成大模型,而是根据眼镜的硬件特性做定制化微调。

技术落地的难点,往往藏在用户没注意的细节里。

比如镜片反光,阳光下看不清字幕,比如说话时的气流,会让麦克风产生杂音。

程思婕团队有个不成文的规矩,每周必须有半天戴自家眼镜出门逛,"你得真把它当日常用品,才能发现那些实验室里测不出来的问题。"

聊到智能眼镜的未来,绕不开两个敏感话题,隐私和替代手机。

程思婕团队设计了三级防护,物理提示灯(拍照录像时亮红灯)、图像预处理打码(默认模糊人脸)、端侧计算(敏感数据不上云)。

你想想,别人不知道你眼镜开没开,这种心理隔阂怎么消除?"这可能比技术难题更难解决。

他们也在做一些"技术向善"的尝试,给视障人群开发的障碍物识别功能,把时延压到了200毫秒以内,"再慢半秒,用户可能就撞上了",给听障人群的实时字幕,特意优化了方言识别。

团队还留了20%的时间,专门研究少数群体的需求。

"商业上可能不划算,但做技术的总得有点理想主义。"

至于会不会取代手机,程思婕挺谨慎,现在说替代还太早。

手机的大屏幕、强算力,眼镜短期内比不了。

但未来一定是'多设备协同',眼镜负责'看见和交互',手机当'算力后盾',各干各的强项。

智能眼镜这波热潮,与其说是新品类爆发,不如说是AI终于找到了离人类最近的"眼睛"。

程思婕和她的同行们正在做的,可能不只是造一款新设备,而是重新定义人和机器"共同看见"这个世界的方式。

这条路肯定不好走,但至少现在,越来越多的人开始相信,未来的计算平台,或许真的会架在鼻梁上。