首个营救物理仿竟然开源 3D 天下生成模子来了!
一句话、一张图就能生成完满 3D 天下,可裁剪、可仿真。
在 2025 年天下东谈主工智能大会(WAIC)上,腾讯厚爱发布混元 3D 天下模子 1.0——首个开源且兼容传统 CG 管线的可漫游天下生成模子。
杀青可漫游 3D 场景生成
从文本或图像生成千里浸式且可交互的 3D 天下,是运筹帷幄机视觉与图形学范畴的中枢挑战。在相识混元天下生成模子的立异之前,不妨先望望现存技能濒临的挑战。现存天下生成秩序主要分为两类:
视频驱动秩序
思象一下制作动画片,传统的视频生成秩序就像是一帧一帧地画画。固然能画出丰富多彩的施行,但存在枯竭 3D 一致性、逐帧渲染资本昂贵、无法与现存 3D 建模器用兼容等致命问题。
三维驱动秩序
胜利生成 3D 阵势的天下场景,而不是视频序列帧。这种秩序虽具备更好的 3D 结构的一致性,却受限于 3D 检修数据稀缺与 3D 表征内存效用低劣等问题。
此外,现存 3D 生成秩序不绝将场景暗意为一个全体,无法对场景中的物体进行单独交互。
混元 3D 天下模子 1.0(HunyunWorld-1.0)是交融两类秩序上风的立异框架,大要依据文本或图像输入生成千里浸式、可探索、可交互的 3D 场景。有以下三大中枢上风:
1、360 ° 千里浸体验:通过全景图将复杂的 3D 天下高效地表征为 360 度袒护的 2D 图像代理,为后续生成完满的 3D 天下建模提供了丰富的空间信息;
2、工业级兼容性 :生成的天下场景营救导出圭臬的 3D 网格阵势,大要无缝导入现存 3D 建模软件和主流游戏引擎,用于二次设立;
3、原子级交互 :通过物体解耦的 3D 建容颜式,生成物体和背景可分离的 3D 天下,营救精确的物体级交互猖狂,提高了生成天下的操作解放度。
HunyunWorld-1.0 禁受生成式架构,市欢全景图像合成与分层 3D 重建技能,杀青了高质地、千里浸式的可漫游 3D 场景生成。
该模子通过语义分层的 3D 场景表征与生成算法,同期营救"文生天下"和"图生天下"两种生成样式。主要技能框架包括三部分,即全景天下代理生成、基于语义的天下分层与分层天下重建。
一键生成不同作风的高质地 3D 场景 3D 全景代理生成
3D 全景不错拿获场景的 360 ° 视觉信息,可通过等距柱状投影(ERP)转机为全景图像,这使其成为 3D 天下生成的中间序言。
HunyunWorld-1.0 恰是通过文本或图像条目生周至景图,手脚驱动 3D 天下生成的代理序言。
HunyunWorld-1.0 的全景生成基于扩散变换器(Diffusion Transformer, DiT)框架,同期营救输入文本和图像生成 3D 全景。
文本到全景生成
将文本输入(prompt)通过文本编码器(Text Encoder)转机为扩散模子的输入条目。
图像到全景生成
将输入图像投影至全景空间,并通过变分自编码器(Variational Autoencoder, VAE) 将其编码至潜在空间(Latent Space)得到条目图像的潜在暗意(Latent Tokens)。
该潜在暗意会与立时噪声的潜在暗意(Noisy Latent)拼接,输入扩散模子进行去噪,生成最终的 3D 全景天下代理。
相较于通用图像生成,全景图生成濒临两大专有挑战:球面投影导致的几何畸变以及全景拼接激励的范畴不连气儿问题。针对上述挑战,HunyunWorld-1.0 引入两项要道计策:
高程感知增强(Elevation-Aware Augmentation)
在检修阶段,以一定概率和位移比例对简直全景图像进行立时垂直偏移,以增强对视点变化的鲁棒性。
环形去噪(Circular Denoising)
在推理阶段,在去噪过程中禁受环形填充(Circular Padding)与渐进搀杂(Progressive Blending)技能,确保全景图范畴的结构与语义连气儿性。
HunyunWorld-1.0 不错生成高质地的 3D 全景。
△文生 360 ° 全景主意
△图生 360 ° 全景主意分层天下重建
尽管全景图能有用充任天下代理,但其无法提供被崎岖区域的信息,无法杀青解放探索(如视角平移)。
为了处罚该问题,HunyunWorld-1.0 立异性地提议了"语义档次化 3D 场景表征及生成算法" ,将复杂的 3D 天下解构为不同的语义层级,杀青远景与背景、大地与天外的智能分离,并基于该分层暗意搭建 3D 天下。
基于语义的天下分层
为杀青语义分层的自动化,此磋议垄断智能体(VLM 视觉话语模子)识别可交互物体,然后禁受"洋葱剥离法"分离天外、背景、远景,最终达到远景物体与背景分离,大地与天外分层处理的成果。
该智能化的天下分层秩序,主要包含三阶段过程:实例识别(检测场景中的颓落物体),图层明白(将物体分派到语义层),图层补全(生成被崎岖区域的合理施行)。通过该分层有打算营救后续的分层 3D 重建。
分层深度臆测与对王人
基于全景天下代理,磋议东谈主员揣度各图层的深度并施行跨图层深度对王人。禁受深度臆测模子(如 MoGe 或 UniK3D)得回原始全景图基础深度图,并对后续图层鉴识揣度深度,最终通过跨层深度匹配技能将各层深度向基础深度图对王人。
具体而言,该跨层深度秩序最小化不同图层肖似区域的深度距离,确保跨图层深度联系一致性,看守重建 3D 场景的几何连贯性。
分层的 3D 天下生成
给定分层图像和深度对王人后的各层深度,磋议禁受 WorldSheet 提议的网格暗意(Grid Mesh Representation) 进行薄板变形(Sheet Warping) ,将 3D 全景颐养为 3D 网格进行杀青天下重建。
针对每个远景层,HunyunWorld-1.0 提供胜利投影法、3D 生成两种重建计策。
前者基于物体深度与语义掩码,通过薄板变形将远景物体胜利颐养为 3D 网格,磋议提议极区平滑处理(Polar Region Smoothing)与网格范畴抗锯齿(Mesh Boundary Anti-Aliasing)来保证重建天下的质地。
后者则借助 3D 物体生成大模子(如 Hunyuan3D 2.5),创建高质地 3D 物体钞票后通过自动背景算法将生成物体植入 3D 场景中。
此外磋议也针对背景层与天外层进行了重建。
关于背景层全景图,磋议东谈主员禁受自相宜深度压缩以确保深度散布合感性,再通过薄板变形颐养为 3D 网格。天外层则是使用天外图像重建,其深度设为大于背景深度的固定值,确保天外深度的合感性。
除通过薄板变形得回传统网格暗意外,HunyunWorld-1.0 也营救 HDRI 环境贴图(HDRI Environment Map)暗意法,以在 VR 应用中杀青更传神的天外光照成果。
△文生 3D 场景主意
△图生 3D 场景主意长距离、天下一致的漫游拓展
尽管分层天下重建提供了初步的场景探索才略,其仍濒临崎岖视图与探索范围受限(Limited Exploration Range) 的挑战。
为冲破此局限,HunyunWorld-1.0 提议基于视频生成的视图补全模子 Voyager,营救空间一致的天下拓展与长距离探索,从运转场景视图和用户指定相机轨迹中,合成空间连贯的 RGB-D 视频。
空间一致的视频扩散模子
磋议提议可延迟的天下缓存机制,以看守空间一致性并扼制视觉幻象(Visual Lallucination)。
该机制垄断生成的 3D 场景构建一个运转的 3D 点云缓存,然后将此缓存投影到标的相机视图中,为扩散模子生成提供指示。生成的帧不休更新并延迟天下缓存,从而创建一个闭环系统,该系统营救随心相机轨迹,同期保合手几何一致性。
长距离天下探索
为处罚单次生成长距离视频的局限,提议市欢平滑视频采样的天下缓存有打算,用于自细致天下探索。
营救 VR、游戏、物体裁剪与物理仿真,无尽应用可能
成绩于 HunyuanWorld-1.0 的分层 3D 网格暗意法,生成的 3D 网格天下大要高效营救多种专科应用场景,包括诬捏现实(VR)、游戏设立、物体裁剪和物理仿真四大中枢范畴。
诬捏现实(VR)应用
通过全景天下代理(panoramic world proxies),HunyuanWorld-1.0 生成 360 ° 无缝袒护的环境,可胜利部署至主流 VR 平台如 Apple Vision Pro,营救解放视角旋转和探索,适用于诬捏旅游、讲明培训等场景,提供简直的临场感。
游戏设立应用
生成的 3D 网格天下导出为圭臬阵势,无缝集成行业引擎如 Unity 和 Unreal Engine,营救快速构建各样化场景,包括外星景不雅、中叶纪古迹和将来都市,加快游戏原型设立和施行迭代,同期保合手高保真视觉质地。
物体裁剪应用
基于解耦对象暗意(disentangled object representations),用户可在场景中对单个元素进行精确 3D 操控,包括平移、旋转和缩放,而不会浮松环境全体性。
这为交互式遐想提供了生动性,举例在诬捏环境中诊治物体布局或创建定制场景,适用于建筑预览、艺术创作等范畴,提高用户猖狂的解放度。
物理仿真应用
导出的分层网格兼容主流物理引擎,营救碰撞检测、刚体能源学和流体模拟等简直天下行为仿真。这确保了场景元素(如物体和地形)的物理属性准确再现,适用于自动驾驶测试、工程模拟等专科范畴,杀青从视觉到行为的全链路一致性。
论文聚合:https://arxiv.org/abs/2507.21809
Github 款式地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
款式主页:https://3d-models.hunyuan.tencent.com/world/
体验地址:https://3d.hunyuan.tencent.com/sceneTo3D
Hugging Face 模子地址:https://huggingface.co/tencent/HunyuanWorld-1
一键三连「点赞」「转发」「谨防心」
接待在驳斥区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿发扬逐日见九游会j9体育(中国)官方网站