机器之心报道
编辑:小舟、杜伟
(资料图)
英国电视剧《黑镜》中有很多不属于这个时代的高科技,其中人类的眼睛可以拥有录像功能,随时随地播放过去的场景。如今在现实中,我们也可以通过眼睛看更多世界。
从人眼反射中重建3D场景,这是一个新奇的话题。近日,马里兰大学帕克分校的一项研究实现了这一效果,利用人眼反光3D重建这个人正在观察的物体或场景,让人直呼《黑镜》重现。
论文地址:https://arxiv.org/pdf/2306.09348.pdf
你也许会问,真的有这么神奇吗?看看下面几个效果图就知道了。
研究者使用一段Lady Gaga的音乐视频,试图重建她眼中观察到的东西。我们可以从Lady Gaga的眼中观察到一个类似上身的影子。不过受限于视频的质量,重建的正确性无法确定。
原来,人眼中的3D世界是这个样子的,模糊却又有点神秘。有人表示, 「这是一篇令人兴奋的论文。」
黑镜重现:人眼反射的3D场景重建
在人类的五官之中,人眼用来处理周围世界的视觉信息。人眼可以当做两个透镜来将光聚焦到感光细胞上,这些感官细胞又组成了视网膜。如果我们观察其他人的眼睛,也会捕获到从角膜反射的光。而当我们使用相机来拍摄其他人的眼睛时,可以将眼睛作为整体成像系统中的一组镜子。由于从观察者眼睛反射的光与到达视网膜的光具有相同的来源,因此相机形成的图像应包含观察者所看到世界的信息。
先前已经有研究探索过从眼睛的图像肿恢复观察者所看到的世界的全景图像,后续工作进一步探索了在个人识别、抓握姿势检测、聚焦物体估计和重照明等领域的应用。
随着3D视觉和图形学的进步,不禁要问:除了从人眼中重建单独的一张全景环境地图之外,有没有可能完整恢复观察者看到的3D世界呢?
在这篇论文中,研究者使用包含人眼反射的图像来重建相机视线以外的3D场景。做到这些非常具有挑战性, 一方面难以准确估计眼睛姿态,另一方面眼睛虹膜和场景反射之间存在纠缠。
针对这些挑战, 研究者联合优化了角膜姿态、用于描述场景的辐射场以及观察者的眼睛虹膜纹理,并进一步提出利用虹膜纹理模式的正则化先验来提供重建质量 。
更具体来讲,研究者通过引入两个关键组件将 NeRF 用于眼睛图像的训练。这两个组件一个是纹理分解,它利用简单的径向先验来帮助从整体辐射场中分离出虹膜纹理;另一个是眼睛姿态优化,它增强了姿态估计的准确性,忽略了眼睛自身小尺寸带来的挑战。
下图4为辐射场和虹膜纹理的联合优化过程,清楚地展示了如何利用从眼睛反射的光线。
实验结果
合成数据评估
该研究通过把眼球模型放置于场景中在Blender中合成了一些数据。下图5展示了该研究定性合成的结果,说明了所提方法能够重建场景的 3D 几何形状:
特别地,如下图7所示,该方法的性能随噪声水平的变化而变化:
为了探究纹理分解的作用,该研究进行了消融实验,实验结果如下表1所示
现实实验
为了评估方法的实际意义,该研究尝试用所提方法捕获和处理了一些真实图像。
如下图9所示,该研究使用类似于标准人像拍摄的方法来捕获图像,以保持视野的逼真性。如下图9所示,该研究保证整个头部在人像拍摄画面中可见,并在人的两侧放置区域灯来照亮感兴趣的对象,然后要求人在摄像机的视野内移动,并为每个场景拍摄 5-15 帧。
如下图6所示,实验结果表明该方法能够从真实世界拍摄的肖像中重建人眼看到的 3D 场景,但角膜位置和几何估计不准确。
如下图 10 所示,通过从所提方法中去除角膜姿态优化和纹理分解,该研究证明了角膜姿态优化和纹理分解对于成功重建 3D 场景很有必要。
此外,该研究还通过实验表明径向正则化(radial regularization)能够提高3D重建的质量,如下图 11 所示。
感兴趣的读者可以阅读论文原文,了解更多研究细节。