智能眼镜大爆发,我们和雷鸟创新AI负责人聊了下为什么
发布时间:2025-12-17 17:23 浏览量:1
2025 年,是 AI 智能眼镜大爆发的一年。
从 Meta 的 Ray-Ban 智能眼镜在全球销量突破百万副开始,一场“百镜大战”正在全球范围内上演。在中国市场,阿里发布夸克 AI 眼镜、百度推出小度 AI 眼镜、小米计划第二季度推出新品、理想汽车甚至跨界发布了 Livis 眼镜。从互联网大厂到手机厂商,从 AR 创业公司到汽车制造商,所有人都在押注:眼镜将成为继手机之后,下一代人机交互的关键入口。
据 IDC 预测,2025 年全球智能眼镜出货量将达 1451.8 万台,中国市场将占据 290.7 万台。然而,在这场狂热的竞赛中,真正的“杀手级应用”是什么?第一人称视角的数据采集意味着什么?眼镜真的能取代手机吗?
带着这些问题,我们与雷鸟创新 AI 方向负责人程思婕进行了一次深度对话。作为清华计算机系博士,从 2019 年本科时期就开始研究语言模型,从 BERT 到 GPT,再到具身智能,她的研究轨迹恰好折射出 AI 领域这几年最重要的变革。而她从机器人赛道转向智能眼镜的选择,或许能为我们理解这个行业提供一个独特的视角。
智能眼镜大爆发,我们和雷鸟创新AI负责人聊了下为什么,DeepTech深科技,1小时1分钟
时间线
00:00 - 02:37|开场+嘉宾自我介绍、研究方向概览
02:37 - 04:24|学术/实习路径与“更偏真实世界”的选择
04:24 - 09:35|为什么从机器人转向智能眼镜:短期瓶颈与数据逻辑
09:35 - 13:46|眼镜的“中间态”定位;刚需属性与国内外差异
13:46 - 20:28|第一人称视角:价值、眼动/噪声、数据挑战与多视角融合
20:28 - 39:09|用户需求与产品落地:稳定性/核心场景;硬件 trade-off;团队协作与迭代节奏
39:09 - 47:07|硬件公司 vs 软件公司做 AI:订阅服务趋势;眼镜与手机/AR vs VR 的未来想象
47:07 - 54:07|眼镜智能体该做什么;隐私安全;意图识别与脑机接口设想
54:07 - 01:01:15|睡眠/助手设想;AI for Good(视障/听障)与结语
DeepTech:欢迎思婕,先和大家做个自我介绍吧。
程思婕:我叫程思婕,目前在雷鸟创新负责 AI 方向,同时也是清华计算机系的博士。我从 2019 年本科大四的时候开始接触语言模型,那时候还是以 BERT 为主。从那之后我一直在做 NLP(自然语言处理),从 BERT 做到 GPT。
读博的时候 GPT 已经非常火了,但我自己比较喜欢物理真实世界。在我看来,预训练语言模型更多还是应用在数字世界里面,所以我就想怎么能和物理世界做更多融合。从 2022 年到 2023 年,我开始慢慢关注具身智能——那时候具身智能还没有像现在这么火。
我先后在不同的大厂实习过:从美团开始,到上海人工智能实验室,后来想做具身智能就去了腾讯 Robotics X 做机器人,最后来到雷鸟做智能眼镜。
DeepTech:所以是从 NLP 到 Transformer,再到现在的具身智能。
程思婕:是的。我比较幸运的是,从我开始做研究的时候,就已经是基于 Transformer 架构做 BERT 这些了,没有经历传统 NLP 比较落寞的时期。我入局的时候就已经是往上走的方向了。
DeepTech:你在美团和腾讯的实习是在选择物理世界和虚拟世界方向的时候?
程思婕:对。我是一个更喜欢真实世界的人。我很少用内容性平台,没有什么社交媒体,也不怎么刷抖音、小红书。我更喜欢拥抱真实世界,比较喜欢户外这样的事情。所以我也希望把大模型真正应用在看得见摸得着的东西上,这也是后来我开始做智能硬件的主要原因。
为什么选择眼镜而不是机器人
DeepTech:你从机器人转到雷鸟,为什么?你可能只是尝试了腾讯这一个部分。
程思婕:我觉得有几点原因。首先说机器人本身,我现在其实也是长期看好机器人的。机器人是大家都非常期待的事情,随着技术迭代和资源投入,大家一定能走到最后,这是个非常大的赛道,家家户户都可以有很多个机器人,盘子更大。
但为什么我没有继续做机器人呢?在我的判断里,大模型这波热潮,包括智能眼镜这波热潮,其实都是因为 AI、因为大模型。但理性来说,我觉得大模型在短期之内很难颠覆机器人本身的瓶颈。
比如说文本模型现在做规划已经做得很好了,但规划这件事能完全颠覆机器人在底层操作上面临的难题吗?我觉得做不到。那些难题更多在硬件上、在控制上。现在也有很多做物理 AI 的,我觉得这是很好的方向,但短期内我判断它可能还得再经历一轮起起伏伏。
换句话说,如果做的是垂类机器人,可能一两年内会有不错的企业做得挺好。但如果要做通用机器人,真正能适用所有通用场景的机器人,那时间就不会那么短了。我是一个比较有野心的人,会觉得机器人的生命,如果想做得特别大,时机还没到。
DeepTech:那智能眼镜呢?
程思婕:智能眼镜我的考虑不一样。我自己是做大模型背景出身的,特别在意数据。智能眼镜在短期来看,我也不会觉得它是一个马上就能落地 AR 的设备——比如你说显示、虚实融合做得有多好,我觉得当下产品还做不到特别好。
但智能眼镜对我来说,作为一个数据采集设备,没有比眼镜更好的了。它戴在头上,在你不同感官最密集的地方,能够持续采集数据——你每天看到的所有东西、听到的所有声音,这些都是智能眼镜能采集的。
另外,眼镜这个事情其实不是现在才火的。Meta 几年前把名字改成“元宇宙”的时候,他们就在大力推眼镜。眼镜本身已经经历了起起伏伏。
我的另一个判断是:眼镜可能是比手机更适合 AI 的载体。因为它不需要我从口袋里拿出手机,可以作为一个非常好的个性化助理。有了那么多数据的反哺之后,它可以做得更智能。这一系列特性让我觉得,在目前市面上的智能硬件里面,眼镜可能是最有机会跑出来、作为最适合 AI 载体的。
DeepTech:所以你会觉得眼镜是在机器人之前的一个中间态?
程思婕:相当于这样。而且眼镜转起来之后还有一个逻辑——自动驾驶。自动驾驶能转起来的一个主要原因是什么?因为它的载体是车,车本身就是人类的刚需。我不需要自动驾驶,也可能得去买车。所以车能够跑在城市的角角落落做数据采集,其他设备很难做这件事。
眼镜可以。眼镜在过去几百年里被验证了,对近视人群来说它是刚需。作为本身就是刚需的产品,戴在人头上,人不会有太大的“我要去买一个新设备”这样的心理负担。它就可以跑在城市的角角落落做数据采集,为未来的机器人、多模态大模型做服务。
另外,眼镜能够极好地解决我刚才提到的机器人的瓶颈——因为它没有 action,不需要做底层的执行操作,更多的是辅助人做一系列的决策。这就可以避开为什么我觉得大模型短期内颠覆不了机器人,但我觉得大模型短期内可以改变眼镜。
第一人称视角的价值
DeepTech:你刚才提到第一人称视角,能用比较通俗的方式描述一下吗?
程思婕:在我的观念里,第一人称视角和过去传统的多模态数据之间会有一些 gap。比如我们过去采集数据更多用手机,手机会以某个物体为中心,变焦之后 focus 在某个物体上。
第一人称视角的好处,我觉得最重要的是凸显“具身”的概念。最通俗的解释就是:和我们人一样,随着我们的姿态、动作改变,你观察到的东西也会改变。随着你头的摆动,观察的东西和你的视角是一致的。
过去机器人里很多第三人称视角,就是把摄像头摆在房间角落,它和你的身体之间没有具体的连接性。第一人称视角代表的不仅仅是视角上的转变,更多是它和你身体之间的一致性。
比如我们桌面上现在一瓶水一个蛋糕,蛋糕被水挡住了,那你的人会思考:我想看到这个蛋糕,就得把头往右扭。扭完之后视角就会发生相应改变。更重要的是整个行为链路上带来的不同影响。
DeepTech:人有时候会走神,注意力集中一段时间后就散神了,这对第一人称视角会造成影响吗?
程思婕:我们现在也特别关注眼动这件事。眼镜的拍摄视野范围会更大一些,我们希望它和人的视野尽可能覆盖度一致,但这样场景就会变得更复杂。如果没有眼动的情况下,我都不知道用户在关注什么。
但眼动又会带来噪声。人是会飘忽不定的,有时候太习惯了,甚至都不需要看着这个物体就去做事情。这确实会带来一些技术上的困扰。但总体来说,眼动能让我们去理解用户、知道用户关注什么,有一个指向性对眼镜来说是好事。
DeepTech:第一人称视角的数据采集有什么要求?
程思婕:其实现在也有一个困境。虽然我希望智能眼镜采集的数据未来可以用到机器人或多模态上,但第一人称视角的数据它过于泛化了。比如人在看环境的时候会经常摆动头部,导致数据不够干净。机器人他们现在会倾向于采集非常干净的数据来做微调。
有一些公司在做 VLA 模型预训练的时候,会用到第一人称视角数据,很多里面都会加上 EGO4D 这样的数据集。但总体来说,我觉得一方面数据量需要再 scaling up,另一方面直接拿它去做机器人微调还是有一定挑战的。
DeepTech:第一人称视角、AI 和硬件,这三者是怎么串起来的?
程思婕:硬件的形态会决定它是不是第一人称视角的设定。这就是为什么我从一开始就特别看好智能眼镜和机器人——它们本身的形态设定就是天然的第一人称视角,和人一样的。
从眼镜的角度来说,有了第一人称视角之后可以更懂用户。从机器人的角度来说,第一人称视角会让它变得更加具身,整个思维链路到行为之间能串起来。
但我想澄清一下:我觉得第一人称视角是当下值得关注的 topic,但人应该更有想象力。第三人称视角其实是上帝视角,我觉得未来一定是多视角融合的状态。
甚至在眼镜上,当下可能因为续航等原因只有一两个摄像头,但未来说不定眼镜上一圈摄像头,像车一样,可以更加 smart。机器人我也不觉得只有两个摄像头,现在也有手上的摄像头、各种各样的摄像头。
用户需要什么样的智能眼镜
DeepTech:你们对智能眼镜用户的期望是怎么设想的?你们觉得他们需要满足哪些功能?
程思婕:眼镜是一个新的品类,和现在做手机的逻辑肯定不一样。作为新品类,我觉得第一件事是把行业上已经达成共识的事情做到极致。
为什么我觉得 Meta 做得好?因为它在系统稳定性上,比如 Ray-Ban 产品的稳定性,做得非常好。我经常重度体验不同的友商产品。我有一款 Meta 的 Oakley,最大的感受就是我可以从早到晚戴着它听歌,蓝牙稳定性特别好,不会有任何被打断的感受。这种事情,国内厂商都需要把它完善到极致。
包括一些软件应用,比如翻译、会议纪要、导航这些场景,这是行业里达成共识的,每家厂商都会做。那怎么在这些行业共识的场景里,首先让用户达到预期?用户戴上眼镜去做导航,是有一个最基本底线的,你怎么能达到用户的底线,把这个产品打磨好,而且打磨得有差异化?
另外,只做到这些也是不够的。眼镜作为新品类,你对它的期待不只是说能做个导航、做个翻译。我拿个翻译笔、录音笔也能干这些事儿。**怎么挖掘出那些在部分场景上体验能达到 90 分以上的功能?**这是眼镜厂商应该去做的事情。
DeepTech:所以我可以理解成,现在一些比较低的要求,很多产品还没有达到?比如稳定性不够强,翻译做得不好,导航可能会出错?
程思婕:我是一个比较苛刻的人,我会觉得当下没有达到那么好的状态,还是有非常大的进步空间。
DeepTech:你刚才说那个 TQA 和 VQA 是什么?
程思婕:不好意思,这是文本问答、图像问答这些。比如去户外场景里做视觉问答,像现在豆包其实做得很好了,还可以做视频问答。
但这和硬件也有关系。手机上拍照的硬件设备已经非常成熟了,大家都开始卷各种参数。但对眼镜而言,你要在这么小的、又希望它能轻的产品里做到特别好,还是有一定挑战的。
DeepTech:那相对于目前的硬件条件,有哪些比较难以达到的?除了摄像头,还有其他的吗?
程思婕:续航是非常重要的事情。大家目前有个共识:眼镜如果希望大家能戴得住,肯定还是要轻。轻、舒适度好的情况下,你就得权衡很多硬件上的东西。加任何一个东西,比如加个摄像头,就会带来非常大的各种 cost——成本上的、重量上的、续航上的。
所以硬件上面更多就是重量、续航、算力,还有各种传输速度,这些都是挺大的问题。
DeepTech:在眼镜上想实现算力,是直接在端侧就有芯片,还是需要上传到云端再计算?
程思婕:得看不同的产品线。有些产品为了追求特别轻,芯片就会相对弱一些。比如我们的 V 系列产品可能就是用高通的 AR1,可以支持一些小的模型在上面跑。但用 AR1 的话,续航可能又会下降。
所以要考虑怎么做权衡,以及你到底在什么场景下需要把什么样的模型放在端侧。这也是做智能硬件的魅力所在,你总是要在各种各样的 trade-off 下去设计很多东西。
DeepTech:目前市场上智能眼镜的续航能达到多少?
程思婕:也看品类。如果希望它持续做 video recording,那续航可能就相对短一些,可能就几十分钟。但如果只是听音乐,从早戴到晚,正常听的话其实一天也能扛得住。如果只是希望它做录音,比如 microphone always on,其实也能做到 24 小时持续录音,但你可能就没办法有摄像头了。看你走什么样的产品路线。
多模型、多智能体的协作
DeepTech:你们的产品里面是固定的一个模型吗?还是在不同的产品线上用不同的模型?
程思婕:我们产品上会有很多不同的模型,不是一个模型就能干完所有事儿。我们会做一些定制化开发,针对不同的眼镜、不同的功能去做进一步微调。但整体大的框架上,我们还是尽可能希望复用,底层逻辑是一样的。
DeepTech:你说的不同模型,是指一号产品对应一号模型,二号产品对应二号模型吗?
程思婕:还不完全是。因为涉及到工程落地,我们可能会有很多不同的智能体,面向 C 端不同用户的需求。每个智能体里面可能就会有一个模型,前面做意图分发可能也得适应不同的模型,再往前做语音转文本也需要不同的模型。整个链路首先就会有不同的模型构成,然后在不同产品线上可能又需要针对不同产品做相关的定制化。
DeepTech:这些不同智能体的调用是怎么展示在眼镜上的?
程思婕:我们会有不同的入口,可以直接通过语音交互去唤醒。手机上也会有相关智能体应用的呈现。如果是带显示的眼镜,像我们的 X 系列,它里面会有自己的系统,系统里就会有相关的呈现。
DeepTech:在这个系统里选择 agent 是怎么选?
程思婕:可以通过镜腿操作,也可以通过语音交互,也可以通过比如手势各种各样的交互。
DeepTech:你们的大模型是自己的吗?
程思婕:我们和阿里通义现在是独家战略合作的状态,所以我们会有阿里这边的支持。另外在有些智能体上面我们会选择做一些自研,会做模型的微调。
DeepTech:微调都是基于千问?
程思婕:对。
语音交互的重要性
DeepTech:眼镜涉及到很多维度,除了视频,还有声音等等,你们是怎么处理这些多维信息的?
程思婕:第一人称视角更多还是在视觉输入上会有差异。声音维度的话,因为眼镜最大的优势就是能采集不同维度的信息,我们也会针对声音做一些相关处理。而且我的判断是,语音这件事未来会变得越来越重要。
一方面原因是语音是我们眼镜最重要的交互入口。在交互过程中,很多时候都是通过语音和眼镜做对话,去做相关智能体的调用。我觉得在未来智能硬件里面,语音是非常重要的入口。
第二个原因是我觉得文本大模型本身是具有一定局限性的,尤其是在对情感的理解上。对没有显示的眼镜来说,语音交互是非常重要的东西。一方面需要它效率高,另一方面希望它尽可能像人一样,能提供一些情绪价值。如果希望它提供情绪价值,就得学会怎么和语音融合在一起。
现在其实已经有这样的形式了,大家开始做全模态的模型,把语音加进去。语音里面的感情能够被大模型识别到,然后做相应的 TTS 输出。我们其实也在做一些相关的研究和推进。
DeepTech:你们现在有遇到什么困难吗?比如在很嘈杂的环境,会对眼镜造成困扰?
程思婕:这就涉及到另外一块了。我最近也有学习很多前端声学相关的东西。眼镜或者语音的输入,我们现在更多还是用传统路径:声学变成语音输入后转成文本,文本给到大模型做处理。所以语音转文本这部分如果错误累积非常严重,对大模型效果影响非常大。
我们也在考虑怎么打造前半段的链路,让效果变得更好。现在在声学里面会涉及到降噪,做一些语音分离,还有远场近场的拾取,整个这块我们都有在做相关研究和推进。
主要困难对我而言,更多还是因为我过去纯做大模型,现在涉及到得考虑硬件的东西,还得考虑声学方向的东西。整体的话我们团队会大家一块配合解决这些问题。
硬件公司与软件公司的 AI 之争
DeepTech:你们是怎么实现内部协作的?因为你可能开发了一个模型效果非常好,但它跑在硬件上会对硬件造成很大压力。
程思婕:首先我觉得,我前段时间在和一个产品经理聊的时候,他之前有非常多和硬件合作智能硬件相关的经验,他教会了我一个词叫“敬畏硬件”。
这个词给我感触非常深。因为我觉得过去我总是会觉得大家迭代速度非常快,尤其在大模型这个行业里,一个月就发生了天翻地覆的变化。但硬件不是这样的,它不是说我今天就要攻克这个难题,今天就把摄像头提到多少分辨率、NTF 做到多好。
所以我们会选择和硬件团队沟通。比如如果我希望我的 AI 未来能够达到什么样的能力,我会希望有什么样的硬件能够上去,或者希望硬件在选型上面能够变得更好,或者希望加什么硬件。这些可能会在一开始确定一个产品的时候就聊好。
产品那边也会有他们的一些 trade-off:我的 key point 到底是什么?当前这个产品是不是以 AI 作为主打的功能定位?我们会先做沟通,沟通完之后,如果硬件选型已经确定,那可能就不是硬件给我们妥协,我们得去考虑在当前这个 constraint(限制)下我们可以做什么,把什么东西做到极致,什么样的场景是我们能达到用户体验闭环的。
DeepTech:你们在规划下一个产品的时候,会设想多远?比如像摩尔定律每 18 个月晶体管数量会怎么变,你们会在这个基础上考虑吗?
程思婕:像 AI 这块,我自己 prefer 的风格是以终为始。我可能会有一个我觉得特别长期的判断:这个眼镜加 AI,AI 眼镜上的硬件该怎么选,能够把 AI 的潜力发挥到极致。这是我可能会考虑的一个战略上的东西。
但在真正每代产品的决策上,我们可能还得考虑比如市场的变化,在当下这个产品到底大家会为什么东西买单,我们还得面对当前的竞争。所以整体的话,一个是未来的理想,一个是当下的现实,我们都会做综合考量。
DeepTech:现在雷鸟的频率大概是每年推几个产品?
程思婕:我们其实还是走的多产品线。一方面是眼镜这个形态,我觉得还没有被最终确定。包括现在 Meta 确实做得很好,但我也不会觉得它就是终局形态的眼镜了。眼镜值得被颠覆的东西还有很多。
大家没有一个人可以指出来说“我就看清了未来眼镜终局长什么样子”。所以当下我们更多走的是多产品线的路线,覆盖的品类会更多一些,整体迭代速度也会更快一些。
我觉得雷鸟做得非常好的一个点是,比如我们的 V 系列眼镜,是当时整个市面上创业公司里最早实现量产上市的眼镜。我们内部执行力各方面还是非常强的。
DeepTech:你觉得一个硬件公司做 AI 和一个软件公司做硬件,比如 OpenAI 现在也在接触一些公司,可能要做一些硬件的东西,你怎么看?
程思婕:首先,我就不举软件公司做硬件没做成的例子了。我觉得这个事情难度还是比较大的,不同公司有不同的基因,就像我总是说我做不了抖音之类的产品,因为我自己就不喜欢内容沉浸的东西。
对于软件公司来说,尤其是体量已经非常大的公司去做硬件,他们的基因里面可能就不一定带着硬件。OpenAI 可能还好一些,因为它总体体量没有那么大。
说到硬件公司做软件,我觉得这是另外一套逻辑。现在越来越多的硬件公司,虽然是硬件公司,但实际上最终让用户付费的是它的订阅式服务,是软件的服务。
我觉得未来硬件本身,跑到最后是不会有太大差异的,可能会有很多家都在做这样的产品。最终可能很多硬件之所以火起来,背后的逻辑还是因为 AI 赋能了它们。比如现在 Cloud 是个非常火的智能硬件,它其实提供的就是会议纪要这种做得非常细的 AI 服务。
未来的智能硬件,不管是录音笔、智能眼镜、机器人,甚至玩偶这些,长期来看会变成硬件服务 AI 这么一个局面。
眼镜能取代手机吗?
DeepTech:在你的想象里,以后当机器人也达到很厉害的状态时,我们周围的这些 AI 硬件应该是怎样的?
程思婕:眼镜和机器人在我眼里是两套不同的逻辑。眼镜会更像手机一些,可能最后大家都会以它作为硬件载体。但机器人,我之前和别人沟通时改变了认知,它会更像车一些。
机器人会有很多垂类的产品,我不需要每一个机器人都像人。比如现在的洗碗机我也觉得可能就是一个机器人,扫地机也可能是个机器人,它不一定长得像人。
所以会既有垂类的很多不同机器人去干具体的事情,这是我觉得未来一两年内有些机器人厂商的机会所在。另外,未来也会有很多人形的,或者超越人形的机器人,以各种各样的身份存在。
DeepTech:会起到陪伴的作用?
程思婕:对,陪伴,或者去——虽然我不想这么说——但肯定会取代掉很多岗位,做一些更加……我觉得这不一定是坏事,只要我们能够考虑得更长远。
DeepTech:我们之前也聊过一些公司,他们觉得人可能不应该去做那些体力劳动的事儿,人应该更多去做德智体美的部分。
程思婕:对,这也是个很有意思的问题。前段时间我也在思考 AI for good,就是 AI 向善这件事。对国内来说,大家可能确实比较关心技术的突破,导致在人文上面可能会有一些忽视。但我相信过去一代代的技术革命都不断往前突破了,所以我整体是乐观的。关键在于我们怎么利用这些技术,以及在前进过程中怎么更多关心人文上的东西。
DeepTech:你刚才提到一个点,你觉得眼镜以后有可能会取代手机。为什么会有这样的想法?
程思婕:我坚信它会取代手机,它应该成为下一代的计算平台。因为眼镜上也有 display、也有显示,也会有完整的一套操作系统。它可以不用拿出来。
但理性来说,我会觉得它也会相对更远。短期之内我可能更多还是觉得眼镜会取代掉一些需要解放双手的场景,比如有时候我实在不想掏出手机了。目前我觉得眼镜更多定位是去做数据采集,以及作为眼镜加手机的辅助角色。但长期来说,我希望眼镜能取代手机。对我而言,我希望出门能带的东西越少越好。
DeepTech:如果眼镜取代手机以后,你觉得会不会对人的思维造成一些影响?从按键手机到屏幕手机其实对人产生了一定影响。
程思婕:这也是很有意思的问题。我在考虑做眼镜的时候,一开始就讲到我更喜欢真实世界。所以我对眼镜的定位一定是真实世界大于数字世界。我希望让大家走出手机来拥抱真实物理世界。
所以我非常希望做 AR,就是增强现实,它是一个增强的东西,帮助你在真实世界里更好地做一些有意思的事情。比如让我去做 VR 我就可能不会考虑,因为它完全沉浸在虚拟世界里去创造元宇宙这么一个概念。
肯定会有人喜欢物理世界,也会有人喜欢虚拟世界。但我自己的偏好是,我希望让大家离真实世界更近一点,可以放下手机。比如我看到前面一个风景,过去我可能需要掏出手机在小红书查一下是什么,但未来我可能只要 enjoy、享受我看到的事情就够了,不需要沉浸在虚拟世界里。AI 只要给我不停的信息提示,告诉我、帮我增强我对现实世界的理解。
DeepTech:所以你会觉得眼镜这件事不会让人沉浸?
程思婕:或者说这是我自己的价值观导致的。也不一定,比如总会有人当眼镜变成熟了之后,拿着抖音的思想放在眼镜里面,让大家短平快地接受各种各样的信息。一定会有这样的产品。但从我的初心出发,我希望大家更多地拥抱真实世界。
智能体需要完成哪些目标
DeepTech:在你的哲学里,你觉得以后在眼镜上的智能体需要完成哪些目标?
程思婕:这对我来说是个比较难的事情,大家都没有想得特别清楚。眼镜上的智能体,我觉得更多是辅助我的生活。
比如现在我最直接想到的就是解放双手的场景。像做饭,眼镜能主动告诉我这个菜该怎么做、每步该怎么弄,像一个专业厨师一样指导我。像打球,之前有个同学跟我分享,他喜欢打网球,最好能类似一个教练一样帮他预测网球的落点落在哪儿,他能马上跑过去接住。我觉得这些东西在我眼里是更有意思的。
DeepTech:你会不会觉得这种帮助人去思考的功能会降低人们思考的能力?
程思婕:我觉得不会。因为懒惰这件事就是人的天性,很多很聪明的人都是为了自己能够更懒一些。解放大家的时间,短期来看可能会有一些人文上的顾虑,但我觉得长期来看,大家可以真正有更多时间去思考自己想要什么东西、想做什么样的事情。总体是更好的。
隐私问题怎么解决
DeepTech:在很多带有摄像头的设备上都会存在安全隐私的问题,你们是怎么思考的?
程思婕:刚刚我说到 AI 向善的事情,我最近也在思考隐私问题。我自己之前还做过一些联邦学习,就是在模型上怎么保护隐私。最近我也在拜访很多做隐私的老师,也在考虑怎么能够保护隐私。
因为眼镜代替人第一人称视角拍照这件事,确实是具有一定侵略性的。对很多人来说,尤其是现在还没有普及,当普及的时候早晚会成为一个社会问题。
我们考虑了几个层面。第一,现在很多眼镜都会有提示灯。第二,我们希望在拍照的输入层面就做处理——比如我拍张照片,但外面的人不希望我拍,那我的眼镜厂商可以先对他做一层打码之类的。第三,我可以在模型层面做一些处理,在端上做相关处理,确保数据不会被攻击、不能被复原出来,上传时不会有任何问题。
甚至未来如果端侧能力更好了,我可能就把一些模型放在端上。最后在云端上,其实现在大家对云端的接受度总体来说是越来越高的,因为大模型厂商其实都是放在云端上的,但也还会有那么多人去使用。云端上也会有一些相关的保护机制,比如我们会要求环境完全被隔离,上传之后可能会做加密。
整个链路上我们非常希望能够关注用户的隐私,让眼镜这个产品不会被大众所抵触。
DeepTech:我之前也看到有人拿眼镜来拍照,可能会对有一些人造成困扰。
程思婕:对,我们也在想一些技术层面的方案,比如在什么样的场景就不允许拍照了。这些东西我们都在考虑整个链路上到底怎么做,能够确保用户的隐私最大程度上得到保护。这是我们非常关注的问题。
DeepTech:这让我想到另一个层面,如果假设每个人都戴着智能硬件,我就可以跟我的智能硬件说“我不希望被别人拍进去”,一旦形成联网的情况,这种问题就比较容易解决。
程思婕:是的,昨天下午我在和一个清华老师讨论的时候就说这个事情——大家都会有一个自己的 profile,就是我的隐私 profile,我的设定是我希望我自己不被别人拍下来或者怎么样,那其他的眼镜就能收到这个东西,互相之间联网。
理解用户意图
DeepTech:你们对于人的意图识别是怎么做到的?是需要主动呼叫吗?
程思婕:这也是非常有意思的问题,可能我还不能谈论太多,但我们确实非常关注这一块。
眼镜非常好的点在于它能拿到和人一致的这些信息。但让人永远都主动去提个问题,这对人来说成本比较高,尤其是在有些场合。比如我现在和你在开会的时候,或者开一些正式会议的时候,我总不能总是呼唤“小雷帮我……”,我突然想不起一个东西,我希望有人能提示我一下过去谈过的事情到底是什么样的结果,但我想不起来了。我也不方便唤醒说“小雷帮我查一下”。眼镜就应该能够敏锐地感受到我这时候需要帮助。
我们现在也在推进这方面的东西,希望眼镜能够更懂用户一些。
DeepTech:那你觉得脑机接口会对眼镜造成一定的颠覆吗?
程思婕:我对终局的判断是,我非常希望或相信脑机接口能够让眼镜或其他硬件都更懂用户。但理性来说,我会觉得它会有点远。在我的认知内稍微还远了一些。
目前脑机接口我也和不同的脑机厂商聊过,感觉目前可能更多还是有一些粗粒度上的识别。如果你希望它非常精准地告诉你“我当前这个意图就是什么”,那可能还有一定距离。但我还是希望能演变成脑机接口直接读取的状态。
DeepTech:比如我们戴眼镜睡觉的时候就摘掉了,你觉得我们在睡觉时还需要这样一个 AI 助手吗?比如它可能有帮我们睡觉的功能?
程思婕:我之前也和一个朋友讨论过。比如现在也会有那种睡前让你戴一个什么东西,通过一些技术能让你加快睡眠的速度。
在睡前你可以戴着眼镜。假设我知道你的日常行为,知道你每天大概什么时候睡,那我可能在判断了你今天大概这个点睡的时候,提前 20 分钟帮你打开助眠的那一系列 sensor——可能除了音乐之外还有别的。然后当你摘下眼镜之前,我就停止、关机。但你其实已经接受了这些服务。
有一些东西可能在戴着的时候就可以做,没有必要在睡的时候直接戴着。睡眠监控的功能,真正有这方面需求的人可能用手表或其他方式就替代了。
国内外市场的差异化
DeepTech:你最开始也提到 Meta 的一些联名,针对比如运动或者喜欢新奇特的人群。你们觉得对于国外这种喜欢新奇特的,和中国产品可能更应该做本土化的,这两个方向怎么看?你们会走哪个方向还是两者兼顾?
程思婕:我们的产品本身国内和海外都会卖,所以总体上会兼顾这两个不同的人群。我非常认可说海外和国内之间人群是有差异化的。
但目前对我们来说,最主要的目标是希望把产品做到极致。功能性这件事,一方面眼镜本身是个眼镜,我们也会考虑怎么让它更像或者本身就是一副眼镜,把眼镜的特性维持到最好。另一方面,我们觉得功能性上如果一个电子产品把功能性拉到最好,对大家来说,我们也希望能够破圈、变得更加普及。
我们现在更多还是一些科技发烧友在做购买的策略,但我们希望它能够变得更加普及,把各种各样的体验拉上去,有更多的功能之后,破圈的概率也会更大一些。
DeepTech:你们觉得什么样的人物画像会是买 AI 智能眼镜的?
程思婕:当下在国内肯定主要是一些科技发烧友。其他的得看不同公司对自己产品和目标人群的定位。比如有些公司主要看重运动人群,因为最自然想到的就是眼镜比手机更大的好处是解放双手。有些公司特别看重拍摄人群,发 vlog 的那些人,因为眼镜上有第一人称视角拍摄,可以做一些相关内容。更多还是看产品自己本身的定位。
AI for Good:让眼镜帮助更多人
DeepTech:我最近有一个非常刚需的事情,但目前还没有看到做得特别好的。我外公他有白内障非常严重,严重到他往外面溜达的时候,如果很近他看不见,会撞在上面。我就在想有没有一种眼镜可以告诉这种视障人士……因为老人有另外一个心理,就是他不愿意做手术。
程思婕:这个事情我非常有共鸣。为什么我做眼镜,潜意识里面可能还有一个原因是我的外婆她眼睛非常不好,很多东西在家里面都得放在固定的位置,来确保自己能够找到。这可能也是我做眼镜的一方面原因。
我们内部,一方面可能我来了之后很多东西要从 0 到 1 做,所以更多落地的事情会花更大精力。另一方面,前段时间我就已经在组织小伙伴们,我们会用一些 20% 的时间考虑一下。
您提到视障人群,其实听障人群我自己也让小伙伴们多去了解用户。我们会经常做用户访谈,虽然我们是个算法团队,但我们了解到用户里面有一部分听障人群,他们对眼镜产品也是非常需要的。尤其像我们的 X 系列会有显示,对听障人群来说也会有比较好的帮助。
所以我们会花一些 20% 的时间来做一些希望能够对少部分人群有帮助的事情。我们很早之前就和 CEO 讨论过这个事情。其实最大的顾虑是我们会担心技术没有成熟到它能百分之百安全。
比如一个视障人群,尤其是在过马路的时候,我因为时延的问题跟你说“那是绿灯”,结果马上就跳红灯了,那我还是有一定担心的。所以这件事我很希望去做,但确实有一定顾虑。
不过我们现在在激烈讨论这个事情,还是希望能够至少有一些推进。比如避障的场景,我们其实一定程度上是可以做的,很早就想干这件事了,但一直因为顾虑也没有往下推。
前段时间有挺多听障人群联系到我们,他们想体验眼镜,看看能不能提供帮助。我们更加认识到,这个产品对于少部分人群来说真的会有很大帮助,或者说它至少有潜力提供很大帮助。所以我上周专门拉了一个群,问大家有多少人对这件事感兴趣,我们要用 part-time 去努力解决这个事情,希望能够多往前再走一走。