真不再需要屏幕？语音竟然成手机杀手？但AI眼镜才是真入口！

发布时间：2025-07-10 18:30 浏览量：44

本期要点：未来新接口

你好，我是王煜全，这里是王煜全要闻评论。

最近，AI语音赛道以前所未有的速度成为全球科技投资和创新的核心。

7月初，AI语音领域的独角兽公司ElevenLabs推出了“11ai”。这个看似波澜不惊的消息却具有不小的战略意义。

11ai定位主动型对话助手，能在Slack、Notion等工具中接收指令并执行操作。

例如它能结合用户的日程安排，提前15分钟语音提示会议即将开始，并询问是否共享Notion议程给参会者。

此外，11ai还能通过模型上下文协议（Model Context Protocol，MCP）与Salesforce、Perplexity等工具集成，让用户可以通过指令实现实际操作。

如通过一句“把Salesforce里客户的需求同步到Notion”，11ai就能自动提取数据，并更新具体内容。

这无疑标志着ElevenLabs从纯语音生成迈向语音交互平台。

ElevenLabs的联合创始人Mati Staniszewski在一次对谈中指出，语音将成为下一代通用交互界面。

他们不仅优化语音自然度，还构建从语音识别到任务执行的闭环系统，让语音不仅是信息载体，更成为驱动行为的接口。

同时，硅谷顶级风投机构a16z也多次通过深度报告和合伙人访谈阐述了对“AI语音Agent”赛道的看好。知名创业孵化器Y Combinator（YC）也有高达22%的初创公司项目涉及语音AI。

5月份，被誉为“互联网女皇”的Mary Meeker在她的《人工智能趋势报告》中，更是把AI语音看做链接全球尚未接入互联网的那26亿人的核心接口。

那么，AI语音真的那么重要吗？

没错，我同意，语音会取代键盘和触摸屏，成为下一代人机交互的核心入口。ElevenLabs用对话驱动行动的做法，确实代表着未来的发展趋势。但是，我认为，集成了图像识别的语音助手，才更加能够实现对世界的完整识别，并推动效率的大幅提升。

AI语音=新入口

首先，我想指出的是，AI语音之所以是交互方式的未来趋势，是因为从鼠标到触屏再到语音，正是人类本能的体现。

回顾人机交互的历史，就是技术不断向人类本能靠拢的过程。

1980年代起，键盘和鼠标一直是主要的人机交互工具。这种方式虽然是一个伟大的发明，但本质上是人去适应机器，需要学习才能掌握。

2007年，iPhone正式推出，让多点触控屏幕成为了主流交互设备，使交互变得更加直观和自然。拖动、捏合、点击等动作，已经非常接近人类与物理世界互动的本能反应。更关键的是，交互方式的变化降低了使用门槛，催生了全民上网的浪潮。

2023年以来，随着AI时代来临，语音这种最古老、最熟练、能耗最低的沟通方式，终于成为了人机交互的重要组成部分。它解放了双手和眼睛，使得交互可以在任何场景下发生。

你可以在开车时导航，做饭时播放音乐，修理设备时查询手册。

而且语音几乎没有学习成本，即使不认字或不习惯使用智能手机，只要会说话就能接入数字世界。

所以，虽然现在AI语音仍然有较高延迟，同时容易出现识别错误，导致只有不足10%的应用将AI语音作为主要的交互方式，但这些问题注定会随着技术的提升而得到解决，语音交互终将成为主流。

不止于语音

但是，我想强调的是，AI语音交互的核心并不在于拟人化或响应快，而是在于能“说到做到”。

目前很多公司还在花大力气打磨语音合成技术，力图生成几乎无法分辨真伪、富有情感的声音。

但能听懂人话和说出人话，只是让AI形成了问答的信息闭环。这并不是AI语音的护城河，更不是它未来的核心价值所在。

别忘了，我们大多数提问的背后，往往对应着具体的需求和任务。

比如询问上海的天气和航班，可能意味着要到上海旅游或出差，需要预订机票和酒店。若AI只是完成了回答，订票、预订酒店等后续操作仍需用户手动完成，那AI语音的意义就非常有限了。

因此，ElevenLabs将AI语音作为驱动行为的接口，确实具有战略意义，也值得大家关注和学习。他们本质上是将语音定义为下一代操作系统的鼠标、键盘和触摸屏。

可以推断，很快基于AI语音的Agent也将随之出现。

它们具有理解自然语言的AI大模型大脑，能拆解复杂任务，并能通过MCP等协议自主调用各种第三方服务来完成任务，直接给用户交付结果。

不过最后，我还想指出的是，仅有语音必然是不够的，因为语音缺乏指向性，而且输入输出效率都太低了。

就像在机场，站在滚动大屏面前要对比十几个航班时，完全通过语音来交互无疑是一场灾难，非常低效且难以操作。

此时，如果再加上摄像头的视觉输入，AI就可以像人一样快速浏览航班列表，总结出关键信息，并结合语音指令给出最佳答案。

所以，未来更符合人性且更高效的交互形态，将是语音与视觉的融合。语音作为便捷的指令输入方式，视觉则承担高效的信息输入和反馈功能。

看到这里，你可能已经想到，集成了摄像头、耳机和麦克风的AI眼镜，不就可以实时看到东西并进行对话了嘛。而且，AI眼镜还能通过用户的注视时间、头部动作等获得额外信息，从而更准确地理解用户。

当你戴着AI眼镜面对满屏幕的航班信息，就能通过简单的语音指令，再结合点头或摇头的动作，就能很快跟AI眼镜进行互动了。

当然，未来随着AR眼镜的成熟，眼镜里还可以打开一个小屏幕，实现信息输出，能针对我们的语音指令，给我们提供更大量的针对性的实时信息，结果呈现方式必然更加高效，我们和世界的互动也必然更加精彩。

王煜全要闻评论，我们明天见。

标签：眼镜杀手手机语音 elevenlabs

上一篇：Meta豪掷250亿入股，AI眼镜代工大单塞爆EssilorLuxottica
下一篇：谷歌Android XR将Gemini引入AI眼镜和XR头显

真不再需要屏幕？语音竟然成手机杀手？但AI眼镜才是真入口！

相似文章

资讯分类

热门资讯

热门标签

热门产品