纵情一张立绘99abcd,就不错生成可拆分 3D 扮装!
来自腾讯 AI Lab、清华建议StdGEN。与以往要领在分拆才调有限、质料不睬念念和优化本领过长等问题上推崇欠安不同,它具备高质料、高效性和可分拆性,好像在 3 分钟内生成具有紧密细节的 3D 扮装(粗粒度模子仅需 1 分钟),并分离出语义组件,如体魄、衣裳和头发。
不错预念念到它好像为编造践诺、游戏和电影制作等领域注入新的活力!该征询效果经受于 CVPR 2025,代码和在线 Gradio Demo 已开源。
StdGEN 的中枢是语义感知大界限重建模子 (S-LRM),这是一个基于 Transformer 的可泛化模子,畴昔馈阵势从多视角图像中筹商重建几何、颜料和语义信息。
此外,还引入了一种可微分的多层语义名义提真金不怕火决议,用于从 S-LRM 重建的夹杂隐式场中获得网格。
在历程中,还集成了挑升想象的多视角扩散模子和迭代式的多层优化模块,以促进高质料、可判辨的 3D 扮装生成。
无数实验标明,他们在 3D 动漫扮装生成方面达到了最先进的性能,在几何、纹理和判辨性方面显贵迥殊了现存基线,并在真东说念主数据等立场具有泛化性。
StdGEN 提供了可径直使用的语义判辨的 3D 扮装模子,为凡俗的行使场景提供了生动的定制才调。
△图 1 StdGEN 行使历程单图生成可解耦 3D 扮装 StdGEN
StdGEN 率先从参考扮装图像生成多视角规范扮装图像。为了从多视角图像重建可判辨的 3D 扮装,他们在 LRM(大型重建模子)的基础上推广了语义场,从而达成基于语义的分层生成。终末通过多层优化过程来增强死心,纠正几何结构并提供更紧密的纹理。
由于径直从纵情姿态参考图重建 3D 扮装模子可能会受到不同视角下自装束的影响,本要领率先将参考扮装图像漂浮为多视角的规范姿态扮装图像。
这一过程包括两个设施:
(1)将纵情参考图像表率化为 A-pose 扮装,通过历练扩散模子 + 图像条目的 ReferenceNet,在生成过程中不断引入扮装参考图信息,生成 A-pose 下的规范扮装图像;
(2)从 A-pose 图像生成多视角 RGB 图像和法线贴图(共 6 个视角),通过历练多视角扩散模子完成,为后续 3D 重建和优化提供充足信息。
△图 2 带语义感知的大型重建模子(S-LRM)暗意图
接下来将上一阶段生成的图像提真金不怕火为特征并输入带语义感知的大型重建模子(S-LRM),得到基于 Triplane 的三维隐式特征,该特征被进一步解码为颜料、体密度、语义和带标志距离场(SDF)等显式三维信息,为了达谚语义解耦的三维扮装生成,他们建议了一种新的语义等价神经隐式场和带标志距离场公式,用于凭据特定语义提真金不怕火扮装的不同部分,欧美人性爱好像达成扮装各部分的语义判辨,得到拆分后的约略三维模子。
△图 3 带语义感知的大型重建模子(S-LRM)通过指定语义提真金不怕火三维信息暗意图99abcd
为了历练该模子学习多层语义信息的才调,团队建议了三阶段历练历程,通过在已有大型重建模子的权重以及添加 LoRA 的阵势使历练更快进行:
(1)历练单层语义的神经放射场(NeRF),学习鼓胀可靠的三维名义过甚语义信息,用于更好的辅导后续历练;
(2)历练多层语义的神经放射场(NeRF),通过屏蔽立时数目的语义过甚对应的三维信息部分辅导物体里面的语义、几何和颜料信息生成;
(3)历练多层语义的带标志距离场(SDF),通过在重建模子的后头加入 FlexiCubes 模块,达成更高区别率的监督和更贴合骨子行使的三维 Mesh 网格输出。
由于大型重建模子在几何结构和纹理细节上的推崇存限,重建后的网格频繁需要进一步优化以提升细节精度。他们经受了分阶段、多档次的要领,通过多视角规范化扮装生成模块生成的法线图以及多视角一致性敛迹关于生成的分层三维扮装死心进行迭代式优化——
率先通过指定不同的语义,提真金不怕火网格的不同部分,并仅优化基础的东说念主体模子;优化完成后,将衣裳部分相通至东说念主体上,固定东说念主体基础模子,仅优化衣裳部分;终末添加头发部分,固定之前已优化的两层,仅优化头发部分,达成通盘模子的紧密化处罚。
实验死心
率先在 Anime3D++ 数据集上进行了定量测试,包括 2D 多视角生成才和谐 3D 扮装生成才调。商酌到其他要领不具备从单张纵情姿态图像生成可解耦的 3D 模子的才调,与其他要领对比他们的非分层死心,并在 A-pose 图像和纵情姿态图像输入上均进行测试以保证刚正性。
死心标明在通盘定量谋划上他们的要领均优于现存要领。
与其他先进要领的定性比拟死心(包含数据集域外的测例、真东说念主测例等)与 3D 解耦模子死心如下。
△表 1 StdGEN 过甚他先进要领在 Anime3D++ 数据集上的评价死心
△图 3 StdGEN 过甚他先进要领的主不雅质料对比
△图 4 StdGEN 的 3D 解耦生成才调展示
△图 5 StdGEN 在真东说念主测例上的泛化才调展示(THuman2.0 数据集)骨子行使
跟着游戏、编造践诺和影视制作等行业的不断发展,用户对扮装定制化的需求日益增多。现存游戏、编造践诺等行使场景中要求三维扮装模子的各个部分可拆分、单独绑定动画。
StdGEN 基于语义解耦的想象,好像生成每个部分(如东说念主体、衣裳、头发等)孤独的三维组件,使得生成的 3D 扮装不仅具有更高的质料,还能更好地行使于现存的游戏和编造践诺等场景,确保其可用性和生动性,弥补了先前责任的不及。
△图 6 StdGEN 仅需用户进行 2D Inpainting 达成可拆分 3D 裁剪
△图 7 StdGEN 的 3D 可拆分死心好像达成更适合东说念主类不雅感和物理特色的动画
高跟丝袜论文结合:
https://arxiv.org/abs/2411.05738
在线 Gradio Demo: https://huggingface.co/spaces/hyz317/StdGEN
GitHub 代码仓库: https://github.com/hyz317/StdGEN
HuggingFace 模子仓库: https://huggingface.co/hyz317/StdGEN
一键三连「点赞」「转发」「着重心」
接待在辩论区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 面孔主页结合,以及关系阵势哦
咱们会(尽量)实时回答你
� � 点亮星标 � �
科技前沿进展逐日见99abcd