真不再需要屏幕?语音竟然成手机杀手?但AI眼镜才是真入口!

发布时间:2025-07-10 18:30  浏览量:30

本期要点:未来新接口

你好,我是王煜全,这里是王煜全要闻评论。

最近,AI语音赛道以前所未有的速度成为全球科技投资和创新的核心。

7月初,AI语音领域的独角兽公司ElevenLabs推出了“11ai”。这个看似波澜不惊的消息却具有不小的战略意义。

11ai定位主动型对话助手,能在Slack、Notion等工具中接收指令并执行操作。

例如它能结合用户的日程安排,提前15分钟语音提示会议即将开始,并询问是否共享Notion议程给参会者。

此外,11ai还能通过模型上下文协议(Model Context Protocol,MCP)与Salesforce、Perplexity等工具集成,让用户可以通过指令实现实际操作。

如通过一句“把Salesforce里客户的需求同步到Notion”,11ai就能自动提取数据,并更新具体内容。

这无疑标志着ElevenLabs从纯语音生成迈向语音交互平台。

ElevenLabs的联合创始人Mati Staniszewski在一次对谈中指出,语音将成为下一代通用交互界面。

他们不仅优化语音自然度,还构建从语音识别到任务执行的闭环系统,让语音不仅是信息载体,更成为驱动行为的接口。

同时,硅谷顶级风投机构a16z也多次通过深度报告和合伙人访谈阐述了对“AI语音Agent”赛道的看好。知名创业孵化器Y Combinator(YC)也有高达22%的初创公司项目涉及语音AI。

5月份,被誉为“互联网女皇”的Mary Meeker在她的《人工智能趋势报告》中,更是把AI语音看做链接全球尚未接入互联网的那26亿人的核心接口。

那么,AI语音真的那么重要吗?

没错,我同意,语音会取代键盘和触摸屏,成为下一代人机交互的核心入口。ElevenLabs用对话驱动行动的做法,确实代表着未来的发展趋势。但是,我认为,集成了图像识别的语音助手,才更加能够实现对世界的完整识别,并推动效率的大幅提升。

AI语音=新入口

首先,我想指出的是,AI语音之所以是交互方式的未来趋势,是因为从鼠标到触屏再到语音,正是人类本能的体现。

回顾人机交互的历史,就是技术不断向人类本能靠拢的过程。

1980年代起,键盘和鼠标一直是主要的人机交互工具。这种方式虽然是一个伟大的发明,但本质上是人去适应机器,需要学习才能掌握。

2007年,iPhone正式推出,让多点触控屏幕成为了主流交互设备,使交互变得更加直观和自然。拖动、捏合、点击等动作,已经非常接近人类与物理世界互动的本能反应。更关键的是,交互方式的变化降低了使用门槛,催生了全民上网的浪潮。

2023年以来,随着AI时代来临,语音这种最古老、最熟练、能耗最低的沟通方式,终于成为了人机交互的重要组成部分。它解放了双手和眼睛,使得交互可以在任何场景下发生。

你可以在开车时导航,做饭时播放音乐,修理设备时查询手册。

而且语音几乎没有学习成本,即使不认字或不习惯使用智能手机,只要会说话就能接入数字世界。

所以,虽然现在AI语音仍然有较高延迟,同时容易出现识别错误,导致只有不足10%的应用将AI语音作为主要的交互方式,但这些问题注定会随着技术的提升而得到解决,语音交互终将成为主流。

不止于语音

但是,我想强调的是,AI语音交互的核心并不在于拟人化或响应快,而是在于能“说到做到”。

目前很多公司还在花大力气打磨语音合成技术,力图生成几乎无法分辨真伪、富有情感的声音。

但能听懂人话和说出人话,只是让AI形成了问答的信息闭环。这并不是AI语音的护城河,更不是它未来的核心价值所在。

别忘了,我们大多数提问的背后,往往对应着具体的需求和任务。

比如询问上海的天气和航班,可能意味着要到上海旅游或出差,需要预订机票和酒店。若AI只是完成了回答,订票、预订酒店等后续操作仍需用户手动完成,那AI语音的意义就非常有限了。

因此,ElevenLabs将AI语音作为驱动行为的接口,确实具有战略意义,也值得大家关注和学习。他们本质上是将语音定义为下一代操作系统的鼠标、键盘和触摸屏。

可以推断,很快基于AI语音的Agent也将随之出现。

它们具有理解自然语言的AI大模型大脑,能拆解复杂任务,并能通过MCP等协议自主调用各种第三方服务来完成任务,直接给用户交付结果。

不过最后,我还想指出的是,仅有语音必然是不够的,因为语音缺乏指向性,而且输入输出效率都太低了。

就像在机场,站在滚动大屏面前要对比十几个航班时,完全通过语音来交互无疑是一场灾难,非常低效且难以操作。

此时,如果再加上摄像头的视觉输入,AI就可以像人一样快速浏览航班列表,总结出关键信息,并结合语音指令给出最佳答案。

所以,未来更符合人性且更高效的交互形态,将是语音与视觉的融合。语音作为便捷的指令输入方式,视觉则承担高效的信息输入和反馈功能。

看到这里,你可能已经想到,集成了摄像头、耳机和麦克风的AI眼镜,不就可以实时看到东西并进行对话了嘛。而且,AI眼镜还能通过用户的注视时间、头部动作等获得额外信息,从而更准确地理解用户。

当你戴着AI眼镜面对满屏幕的航班信息,就能通过简单的语音指令,再结合点头或摇头的动作,就能很快跟AI眼镜进行互动了。

当然,未来随着AR眼镜的成熟,眼镜里还可以打开一个小屏幕,实现信息输出,能针对我们的语音指令,给我们提供更大量的针对性的实时信息,结果呈现方式必然更加高效,我们和世界的互动也必然更加精彩。

王煜全要闻评论,我们明天见。