从机器人到眼镜,具身智能如何改变我们&
发布时间:2025-12-20 09:34 浏览量:3
2025年智能眼镜突然成了科技圈的香饽饽,Meta的Ray-Ban智能眼镜销量悄悄破了百万,国内这边阿里夸克、百度小度、小米、理想汽车的Livis也都赶着趟儿发布新品。
IDC预测今年全球能卖出1451.8万台,中国占了290.7万台。
热闹归热闹,有个问题一直没人说透,这玩意儿到底靠什么真正走进普通人生活?雷鸟创新的AI负责人程思婕,这位30岁出头的清华计算机博士,可能藏着答案。
程思婕的职业轨迹挺有意思,本科时赶上BERT语言模型爆发,一头扎进NLP研究,后来去美团、上海人工智能实验室实习,再到腾讯RoboticsX搞机器人,绕了一圈,2023年落脚雷鸟创新做智能眼镜。
问她为啥转方向,她半开玩笑说,"本来想做通用机器人改变世界,但后来发现商业化周期实在太长。"
机器人行业有个绕不开的坎硬件控制瓶颈,程思婕见过太多实验室里的"完美机器人",一到真实场景就掉链子。
机器人要学人类动作,得先'看见'人类怎么动。
但它的'眼睛'装在身上,视角跟人差太远。
反观智能眼镜,往鼻梁上一架,天然就是第一人称视角,跟着脑袋动,看见的世界和人眼几乎同步。
全球玩家的打法很不一样,Meta的Ray-Ban能卖爆,靠的不是啥黑科技,而是基础体验扎实。
用户反馈最多的是"蓝牙连得稳""续航能撑一天",这种稳定性在消费电子里太重要了。
国内厂商则集中在翻译、会议纪要、导航这些共识场景,功能都大同小异。
程思婕觉得,"现在大家基础功能都能做到80分,真正的机会在90分以上的体验找到那个'哇,没它不行'的场景。"
智能眼镜的战场,表面是功能比拼,实则是对"第一人称视角"价值的理解差异。
Meta赌的是"无感佩戴",国内厂商抢的是"效率工具",但程思婕团队想的是更深层的让AI真正"理解"人是怎么看世界的。
"第一人称视角的核心不是'拍下来',是'同步感知'。"
程思婕拿起雷鸟X2演示,转头时镜片里的画面跟着动,低头看桌子,视角自然下移,"这跟手机拍照完全两码事,它得跟你的头部姿态、甚至眼球运动保持一致,这才叫具身智能。"
眼动追踪技术就卡在这儿,理论上追踪眼球能准确定位注意力,但人眼其实一直在无意识抖动,这些"噪声"让数据变得混乱。
我们试过让用户盯着一个点不动,结果发现哪怕刻意控制,眼球每秒还是会颤动好几次。
现在团队的折中方案是"眼动+头部姿态"双判断,虽然复杂,但至少数据干净些。
交互方式也得重新设计,智能眼镜不可能像手机那样划屏幕,语音成了主力。
雷鸟X系列的麦克风做了专门优化,两米外说话也能听清,还能分离背景噪音。
有次在咖啡厅测试,旁边有人打电话,眼镜居然准确把我的声音摘了出来。
程思婕对这个技术细节挺得意,硬件和算法得绑在一起琢磨。
雷鸟的AR1芯片专门为智能眼镜设计,算法团队得跟着硬件参数调模型。
以前做纯软件,模型精度差点还能靠数据补,做硬件就不行,摄像头角度偏1度,识别准确率可能掉20%。
这种"敬畏硬件"的思路,让他们和阿里通义千问的合作也很特别不是直接用现成大模型,而是根据眼镜的硬件特性做定制化微调。
技术落地的难点,往往藏在用户没注意的细节里。
比如镜片反光,阳光下看不清字幕,比如说话时的气流,会让麦克风产生杂音。
程思婕团队有个不成文的规矩,每周必须有半天戴自家眼镜出门逛,"你得真把它当日常用品,才能发现那些实验室里测不出来的问题。"
聊到智能眼镜的未来,绕不开两个敏感话题,隐私和替代手机。
程思婕团队设计了三级防护,物理提示灯(拍照录像时亮红灯)、图像预处理打码(默认模糊人脸)、端侧计算(敏感数据不上云)。
你想想,别人不知道你眼镜开没开,这种心理隔阂怎么消除?"这可能比技术难题更难解决。
他们也在做一些"技术向善"的尝试,给视障人群开发的障碍物识别功能,把时延压到了200毫秒以内,"再慢半秒,用户可能就撞上了",给听障人群的实时字幕,特意优化了方言识别。
团队还留了20%的时间,专门研究少数群体的需求。
"商业上可能不划算,但做技术的总得有点理想主义。"
至于会不会取代手机,程思婕挺谨慎,现在说替代还太早。
手机的大屏幕、强算力,眼镜短期内比不了。
但未来一定是'多设备协同',眼镜负责'看见和交互',手机当'算力后盾',各干各的强项。
智能眼镜这波热潮,与其说是新品类爆发,不如说是AI终于找到了离人类最近的"眼睛"。
程思婕和她的同行们正在做的,可能不只是造一款新设备,而是重新定义人和机器"共同看见"这个世界的方式。
这条路肯定不好走,但至少现在,越来越多的人开始相信,未来的计算平台,或许真的会架在鼻梁上。