北京智源人工智能研究院推出的See3D模型是一项创新的技术,它能够利用无标注的互联网视频进行3D内容的生成。以下是See3D模型的一些关键特点:
- 视觉条件技术:See3D采用了视觉条件技术,不依赖于传统的相机参数,而是通过视频中的视觉线索来生成相机方向可控且几何一致的多视角图像。
- 大规模无标注视频学习:See3D能够从互联网视频中高效学习3D先验,不依赖于昂贵的3D或相机标注,这使得从多样化、易获取的互联网视频中学习成为可能。
- 数据集构建:研究团队构建了一个大规模多视角图像数据集WebVi3D,涵盖了1600万个视频片段的3.2亿帧图像,这个数据集可以随着互联网视频的增长而不断扩充。
- 多视图扩散模型训练:See3D通过向掩码视频数据添加时间依赖噪声,生成纯粹的2D视觉信号,支持可扩展的多视图扩散模型训练,实现了无需相机条件的3D生成。
- 3D生成框架:See3D学到的3D先验能够支持一系列3D创作应用,包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等。
- 开源模型、代码和Demo:See3D的模型、代码和Demo已经开源,供更多的技术细节参考。论文地址为:https://arxiv.org/abs/2412.06699,项目地址为:https://vision.baai.ac.cn/see3d。
- 应用场景广泛:See3D支持从文本、单视图和稀疏视图到3D的生成,并能够进行3D编辑与高斯渲染,展现出在多种3D创作应用中的广泛适用性。
See3D模型的推出为3D生成领域带来了新的可能性,特别是在降低成本和提高效率方面,它为3D数据的采集和应用提供了一种新的解决方案。
项目地址:
https://vision.baai.ac.cn/see3d
本文地址:https://www.163264.com/10185