北京时间 6 月 20 日凌晨,正式公布了最佳论文、最佳学生论文等奖项。其中,获得最佳论文的有两篇文章 ——BioCLIP 和 Mip-Splatting。
据 Mip-Splatting 论文一作 Zehao Yu 的导师、图宾根大学教授 Andreas Geiger 透露,这篇论文从想法公布到成稿,只用了一个月的时间。
而且,他还提到,Zehao Yu 之前参与过多个项目,并发表过自己的论文。但在 Mip-Splatting 项目之前,他从未接触过高斯泼溅技术,对于高斯泼溅的入门也是在业余时间以个人兴趣的形式展开的。这让他不禁感叹,「研究是高度非线性的,往往很难规划,这正是它令人生畏的地方,同时也令人兴奋。我们一定要接受这一点。」
3D 图像渲染是指生成三维图像的过程。想象一下电脑游戏中的那些逼真的场景或动画电影中的角色,它们都是通过渲染技术从一堆数据变成我们正真看到的图像。
在计算机图形学中,锯齿(alias)是指图像边缘出现的锯齿状不平滑现象(见下图)。抗锯齿技术就是用来消除这一些锯齿,使图像边缘看起来更平滑和自然,近几年颇受关注的高斯泼溅就是这样一种技术。它利用高斯分布来平滑图像边缘,由此减少锯齿效应,使得图像更为平滑和自然。
Zehao 已经在我的实验室里做了一段时间的博士生了。他和实验室里的许多人一样,做了很多出色的工作。首先,他参与了一些项目(TransFuser),并在 NeurIPS 2022 会议上发表了他的第一篇独立论文(MonoSDF)。他还开发了一个用于表面重建的完整软件框架,基于 SDF 模型(SDFStudio)。
在 Mip-Splatting 之前,他没有用过高斯泼溅方法。事实上,他当时正在研究另一个使用更「传统」神经隐式表示的项目。但那个项目进展得不太顺利,很长一段时间里充满障碍。到了 2023 年 10 月,他在业余时间开始玩高斯泼溅技术。他喜欢在业余时间尝试新事物并研究新的模型。
3DGS(3D Gaussian Splatting)是当时的新技术。简而言之,它可以从几个输入图像中生成逼真的新视角,比 NeRF 和之前的其他方法更快。但 Zehao 对在超出训练姿态分布时渲染的表现感到困惑。这些渲染效果会退化,结构变得太细或太粗。大概当时很多人都注意到了这些现象,但还没有人解决它们。Zehao 有一个简单的解决方案,并且在想这样的解决方法是否够好,是否值得发表。
在 10 月 18 日,Zehao 写道:「大家好,我计划提交一篇关于解决最近 3D 高斯泼溅的抗锯齿 / 缩放伪影的论文到 CVPR。我发现这些伪影的根本原因是低通滤波器。在使用泼溅办法来进行渲染时,低通滤波器是很常见的。但当它应用于优化框架(从多视图图像重建)时,它会引入一种偏置,使得线D 高斯变小(因为滤波器在渲染过程中会使其变大)。所以当我们放大或缩小时,由于视角与训练视角不同,我们会看到伪影。但咱们不可以简单地抛弃低通滤波器,因为这样就没办法实现抗锯齿。
我的解决方案格外的简单:1)我们该使用较小的低通滤波器,这样低通滤波器的效果不会在训练中占主导地位;2)添加一个正则化,使得高斯不会变得太小。」
时间非常紧张:从想法到 CVPR 截止日期只有 1 个月。通常这种努力不会顺顺利利地进行,因为剩下的时间太少,没有办法进行论文润色或实验。但 Zehao 坚信他还可以在截止日期前 1-2 周完成。他正在做实验,我们所有人都开始一起写论文。我们在 11 月 17 日提交给 CVPR,并在 1 月 23 日惊讶地收到 3 个「strong accept」的评审意见。昨天,Mip-Splatting 在 CVPR 获得了最佳学生论文奖。我们很感谢社区、评审、领域主席和奖项委员会对这个小小想法的认可。
一个简单的想法,用了短短一个月就写成了论文,还拿到了 CVPR 最佳学生论文奖,不知其他研究者听到有何感想。
Andreas Geiger 也谦虚得说,这里面有运气的成分(有人可能认为这篇论文是增量式创新),评审的结果也未必 100% 公平。但他之所以分享这段经历,只是想要表达:
研究往往是非常非线性的。在从事某项工作的同时,你会发现其他的东西。最重要的一点是要努力工作,充满热情,充满好奇心,不断尝试新事物。要有创造力。提出疯狂的想法。用未曾设计过的方式测试现有模型。不断前进。这就是每个研究人员的核心:好奇心。试图探究事物的本质。进一步探索它们,从而(有时在不经意间非常意外地)做出新发现。
不过,他也指出,在现行的科研系统中,科学家要通过提交研究计划、 撰写资助申请书来获取研究项目资金,这和好奇心驱动的研究理念很不相称,尤其是在 AI 这样一个加快速度进行发展的领域。
「你很少能制定出一个精确的 3 年甚至 5 年愿景,并完全按照这一个愿景行事。更有可能的情况是,在研究过程中会出现一些有趣的相关研究问题,这样一些问题值得研究,你不应该因为它们与你最初的研究计划不完全一致而不去研究它们。」Vladlen Koltun 写到。但对此,他也没有很好的解决方案。
最后介绍一下论文一作 Zehao Yu。他本科毕业于厦门大学,之后在上海科技大学拿到了硕士学位,2021 年前往德国图宾根大学读博。他的研究重点是计算机视觉和机器学习,特别是 3D 视觉(深度估计、平面检测、多视图立体视觉、3D 重建、3D 人体建模)。
6月26日,《AIGC体验派》第二期,邀请到火山引擎智能创作云运营负责人吴佳硕和NVIDIA解决方案架构师刘一鸣,一起聊聊营销视频创作:
原标题:《导师爆料:这篇CVPR最佳学生论文,从想法到成稿只用一个月,源自业余灵感》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。