99abcd 一张图，快速生成可拆分3D扮装！腾讯清华新SOTA

你的位置：欧美人性爱 > rio柚木提娜 > 99abcd 一张图，快速生成可拆分3D扮装！腾讯清华新SOTA

99abcd 一张图，快速生成可拆分3D扮装！腾讯清华新SOTA

发布日期：2025-07-06 10:42 点击次数：100

纵情一张立绘99abcd，就不错生成可拆分 3D 扮装！

来自腾讯 AI Lab、清华建议StdGEN。与以往要领在分拆才调有限、质料不睬念念和优化本领过长等问题上推崇欠安不同，它具备高质料、高效性和可分拆性，好像在 3 分钟内生成具有紧密细节的 3D 扮装（粗粒度模子仅需 1 分钟），并分离出语义组件，如体魄、衣裳和头发。

不错预念念到它好像为编造践诺、游戏和电影制作等领域注入新的活力！该征询效果经受于 CVPR 2025，代码和在线 Gradio Demo 已开源。

StdGEN 的中枢是语义感知大界限重建模子（S-LRM），这是一个基于 Transformer 的可泛化模子，畴昔馈阵势从多视角图像中筹商重建几何、颜料和语义信息。

此外，还引入了一种可微分的多层语义名义提真金不怕火决议，用于从 S-LRM 重建的夹杂隐式场中获得网格。

在历程中，还集成了挑升想象的多视角扩散模子和迭代式的多层优化模块，以促进高质料、可判辨的 3D 扮装生成。

无数实验标明，他们在 3D 动漫扮装生成方面达到了最先进的性能，在几何、纹理和判辨性方面显贵迥殊了现存基线，并在真东说念主数据等立场具有泛化性。

StdGEN 提供了可径直使用的语义判辨的 3D 扮装模子，为凡俗的行使场景提供了生动的定制才调。

△图 1 StdGEN 行使历程单图生成可解耦 3D 扮装 StdGEN

StdGEN 率先从参考扮装图像生成多视角规范扮装图像。为了从多视角图像重建可判辨的 3D 扮装，他们在 LRM（大型重建模子）的基础上推广了语义场，从而达成基于语义的分层生成。终末通过多层优化过程来增强死心，纠正几何结构并提供更紧密的纹理。

由于径直从纵情姿态参考图重建 3D 扮装模子可能会受到不同视角下自装束的影响，本要领率先将参考扮装图像漂浮为多视角的规范姿态扮装图像。

这一过程包括两个设施：

（1）将纵情参考图像表率化为 A-pose 扮装，通过历练扩散模子 + 图像条目的 ReferenceNet，在生成过程中不断引入扮装参考图信息，生成 A-pose 下的规范扮装图像；

（2）从 A-pose 图像生成多视角 RGB 图像和法线贴图（共 6 个视角），通过历练多视角扩散模子完成，为后续 3D 重建和优化提供充足信息。

△图 2 带语义感知的大型重建模子（S-LRM）暗意图

接下来将上一阶段生成的图像提真金不怕火为特征并输入带语义感知的大型重建模子（S-LRM），得到基于 Triplane 的三维隐式特征，该特征被进一步解码为颜料、体密度、语义和带标志距离场（SDF）等显式三维信息，为了达谚语义解耦的三维扮装生成，他们建议了一种新的语义等价神经隐式场和带标志距离场公式，用于凭据特定语义提真金不怕火扮装的不同部分，欧美人性爱好像达成扮装各部分的语义判辨，得到拆分后的约略三维模子。