斯坦福与Meta联合研发AI全息眼镜,突破VR显示技术桎梏

发布时间:2025-07-30 01:02  浏览量:31

最近,斯坦福大学与 Meta 合作,凭借人工智能优化的 3D 全息技术,成功研发出一款轻巧如普通眼镜的 3D 头戴设备,被研究人员视为迈向通过“视觉图灵测试”的关键一步。

这款新型 VR 头显原型极为轻薄,从透镜到屏幕,整个显示器的厚度仅 3 毫米。斯坦福大学电气工程学教授戈登·韦茨斯坦手持原型表示:“未来,大多数 VR 显示器都将是全息的。全息技术具备其他类型显示器无法企及的功能,而且其封装尺寸远小于当今市场上的任何产品。”

MR 技术致力于无缝衔接物理与数字空间,为用户带来超越现实世界限制的独特体验。相关的沉浸式平台在培训、通信、娱乐和教育等众多领域展现出变革性的潜力。要实现用户与虚拟环境之间无缝且舒适的交互,近眼显示器必须具备可穿戴的外形设计,既时尚又能全天使用,同时还要提供与真实世界相媲美的真实感知体验,且易于操作。

在众多技术中,基于波导的全息显示器被视为解决设计紧凑型近眼显示器并生成感知真实图像这一难题的最有前途的技术之一。它基于全息原理,能够编码出与现实难以区分的 3D 场景,还能将光学堆栈的功能高度压缩到轻薄、轻量的全息光学设计中。全息显示器为近眼显示器带来了独特的能力,包括像素级深度控制、高亮度、低功耗以及光学像差校正能力。

然而,尽管基于轻薄光学波导的全息近眼显示器在实现紧凑外形方面展现出巨大潜力,但目前仍面临诸多限制。图像质量、生成 3D 彩色图像的能力以及光学扩展量等方面都受到严重制约。数字全息显示器的一个根本问题在于当前空间光调制器提供的有限空间带宽积或光学扩展量,小光学扩展量从根本上限制了视场角范围和可能的视窗范围。

要应对这一挑战,需要从两个方面入手。一方面,必须以极高的精度对光的传播进行建模;另一方面,模型需要高效且能扩展到大光学扩展量设置。计算光学的最新进展显示,人工智能方法可用于学习相干波通过全息显示器的精确传播模型,从而显著提高图像质量。

相关模型通常采用卷积神经网络,并通过实验捕获的相位-强度图像对进行训练,比纯模拟模型能更准确地模拟特定显示器的光电特性。但传统的卷积神经网络模型存在不足,无法准确预测大光学扩展量波导中的复杂光传播,原因在于错误地假设光源是完全相干,同时还存在模型效率以及在大光学扩展量设置下的可扩展性问题。

斯坦福大学和 Meta 团队另辟蹊径,基于部分相干理论,将波传播学习问题重新表述为相干性重建。他们推导出一个基于物理的波传播模型,参数化了波导内波传播算子的互强度的低秩近似,并考虑了部分相干性,从而比现有的相干模型更准确地模拟全息显示器。

此外,所提出的方法通过新兴的连续隐式神经表示来参数化光通过波导的传播,能够高效地学习一个模型,并用于在大光学扩展量范围内任意空间和频率坐标的部分相干波前传播。与现有方法相比,隐式模型实现了卓越的质量,需要的训练数据和时间比现有的卷积神经网络模型架构少一个数量级,其连续性特性还能更好地泛化到未见过的空间频率,同时提高了波前未观测部分的准确性。

除了创新的模型,研究人员还设计并实现了一个全息显示系统。该系统包含一个全息波导、一个全息透镜和一个微机电系统反射镜,光学架构通过转向照明提供了大的有效光学扩展量,且具有超紧凑的外形。

最终,他们将新颖且紧凑的大光学扩展量波导架构与 AI 驱动的全息算法相结合,原型机在比现有技术大两个数量级的 3D 眼动范围内展示了高质量的 3D 图像。这使得显示器既拥有较大的视场,又具备较大的视窗,而且这种眼镜可以连续佩戴几个小时,不会造成脖子或眼睛疲劳。

当然,这仅仅是团队科研征程中的阶段性成果。韦茨斯坦介绍,他们的科研分为三部曲:第一部是介绍可以在小巧外形中实现高图像质量的全息波导;第二部是建立这个工作原型;而第三部则是推出真正商业化产品,将工程的精细细节完美呈现。虽然韦茨斯坦承认真正实现商业化可能尚需数年时间,但他坚信这一天终会到来。