九游会j9体育(中国)官方网站然后禁受"洋葱剥离法"分离天外、背景、远景-J9九游会真人(中国)官方网站|第一入口

九游会j9体育(中国)官方网站然后禁受"洋葱剥离法"分离天外、背景、远景-J9九游会真人(中国)官方网站|第一入口

首个营救物理仿竟然开源 3D 天下生成模子来了!

一句话、一张图就能生成完满 3D 天下,可裁剪、可仿真。

在 2025 年天下东谈主工智能大会(WAIC)上,腾讯厚爱发布混元 3D 天下模子 1.0——首个开源且兼容传统 CG 管线的可漫游天下生成模子。

杀青可漫游 3D 场景生成

从文本或图像生成千里浸式且可交互的 3D 天下,是运筹帷幄机视觉与图形学范畴的中枢挑战。在相识混元天下生成模子的立异之前,不妨先望望现存技能濒临的挑战。现存天下生成秩序主要分为两类:

视频驱动秩序

思象一下制作动画片,传统的视频生成秩序就像是一帧一帧地画画。固然能画出丰富多彩的施行,但存在枯竭 3D 一致性、逐帧渲染资本昂贵、无法与现存 3D 建模器用兼容等致命问题。

三维驱动秩序

胜利生成 3D 阵势的天下场景,而不是视频序列帧。这种秩序虽具备更好的 3D 结构的一致性,却受限于 3D 检修数据稀缺与 3D 表征内存效用低劣等问题。

此外,现存 3D 生成秩序不绝将场景暗意为一个全体,无法对场景中的物体进行单独交互。

混元 3D 天下模子 1.0(HunyunWorld-1.0)是交融两类秩序上风的立异框架,大要依据文本或图像输入生成千里浸式、可探索、可交互的 3D 场景。有以下三大中枢上风:

1、360 ° 千里浸体验:通过全景图将复杂的 3D 天下高效地表征为 360 度袒护的 2D 图像代理,为后续生成完满的 3D 天下建模提供了丰富的空间信息;

2、工业级兼容性 :生成的天下场景营救导出圭臬的 3D 网格阵势,大要无缝导入现存 3D 建模软件和主流游戏引擎,用于二次设立;

3、原子级交互 :通过物体解耦的 3D 建容颜式,生成物体和背景可分离的 3D 天下,营救精确的物体级交互猖狂,提高了生成天下的操作解放度。

HunyunWorld-1.0 禁受生成式架构,市欢全景图像合成与分层 3D 重建技能,杀青了高质地、千里浸式的可漫游 3D 场景生成。

该模子通过语义分层的 3D 场景表征与生成算法,同期营救"文生天下"和"图生天下"两种生成样式。主要技能框架包括三部分,即全景天下代理生成、基于语义的天下分层与分层天下重建。

一键生成不同作风的高质地 3D 场景 3D 全景代理生成

3D 全景不错拿获场景的 360 ° 视觉信息,可通过等距柱状投影(ERP)转机为全景图像,这使其成为 3D 天下生成的中间序言。

HunyunWorld-1.0 恰是通过文本或图像条目生周至景图,手脚驱动 3D 天下生成的代理序言。

HunyunWorld-1.0 的全景生成基于扩散变换器(Diffusion Transformer, DiT)框架,同期营救输入文本和图像生成 3D 全景。

文本到全景生成

将文本输入(prompt)通过文本编码器(Text Encoder)转机为扩散模子的输入条目。

图像到全景生成

将输入图像投影至全景空间,并通过变分自编码器(Variational Autoencoder, VAE) 将其编码至潜在空间(Latent Space)得到条目图像的潜在暗意(Latent Tokens)。

该潜在暗意会与立时噪声的潜在暗意(Noisy Latent)拼接,输入扩散模子进行去噪,生成最终的 3D 全景天下代理。

相较于通用图像生成,全景图生成濒临两大专有挑战:球面投影导致的几何畸变以及全景拼接激励的范畴不连气儿问题。针对上述挑战,HunyunWorld-1.0 引入两项要道计策:

高程感知增强(Elevation-Aware Augmentation)

在检修阶段,以一定概率和位移比例对简直全景图像进行立时垂直偏移,以增强对视点变化的鲁棒性。

环形去噪(Circular Denoising)

在推理阶段,在去噪过程中禁受环形填充(Circular Padding)与渐进搀杂(Progressive Blending)技能,确保全景图范畴的结构与语义连气儿性。

HunyunWorld-1.0 不错生成高质地的 3D 全景。

△文生 360 ° 全景主意

△图生 360 ° 全景主意分层天下重建

尽管全景图能有用充任天下代理,但其无法提供被崎岖区域的信息,无法杀青解放探索(如视角平移)。

为了处罚该问题,HunyunWorld-1.0 立异性地提议了"语义档次化 3D 场景表征及生成算法" ,将复杂的 3D 天下解构为不同的语义层级,杀青远景与背景、大地与天外的智能分离,并基于该分层暗意搭建 3D 天下。

基于语义的天下分层

为杀青语义分层的自动化,此磋议垄断智能体(VLM 视觉话语模子)识别可交互物体,然后禁受"洋葱剥离法"分离天外、背景、远景,最终达到远景物体与背景分离,大地与天外分层处理的成果。

该智能化的天下分层秩序,主要包含三阶段过程:实例识别(检测场景中的颓落物体),图层明白(将物体分派到语义层),图层补全(生成被崎岖区域的合理施行)。通过该分层有打算营救后续的分层 3D 重建。

分层深度臆测与对王人

基于全景天下代理,磋议东谈主员揣度各图层的深度并施行跨图层深度对王人。禁受深度臆测模子(如 MoGe 或 UniK3D)得回原始全景图基础深度图,并对后续图层鉴识揣度深度,最终通过跨层深度匹配技能将各层深度向基础深度图对王人。

具体而言,该跨层深度秩序最小化不同图层肖似区域的深度距离,确保跨图层深度联系一致性,看守重建 3D 场景的几何连贯性。

分层的 3D 天下生成

给定分层图像和深度对王人后的各层深度,磋议禁受 WorldSheet 提议的网格暗意(Grid Mesh Representation) 进行薄板变形(Sheet Warping) ,将 3D 全景颐养为 3D 网格进行杀青天下重建。

针对每个远景层,HunyunWorld-1.0 提供胜利投影法、3D 生成两种重建计策。

前者基于物体深度与语义掩码,通过薄板变形将远景物体胜利颐养为 3D 网格,磋议提议极区平滑处理(Polar Region Smoothing)与网格范畴抗锯齿(Mesh Boundary Anti-Aliasing)来保证重建天下的质地。

后者则借助 3D 物体生成大模子(如 Hunyuan3D 2.5),创建高质地 3D 物体钞票后通过自动背景算法将生成物体植入 3D 场景中。

此外磋议也针对背景层与天外层进行了重建。

关于背景层全景图,磋议东谈主员禁受自相宜深度压缩以确保深度散布合感性,再通过薄板变形颐养为 3D 网格。天外层则是使用天外图像重建,其深度设为大于背景深度的固定值,确保天外深度的合感性。

除通过薄板变形得回传统网格暗意外,HunyunWorld-1.0 也营救 HDRI 环境贴图(HDRI Environment Map)暗意法,以在 VR 应用中杀青更传神的天外光照成果。

△文生 3D 场景主意

△图生 3D 场景主意长距离、天下一致的漫游拓展

尽管分层天下重建提供了初步的场景探索才略,其仍濒临崎岖视图与探索范围受限(Limited Exploration Range) 的挑战。

为冲破此局限,HunyunWorld-1.0 提议基于视频生成的视图补全模子 Voyager,营救空间一致的天下拓展与长距离探索,从运转场景视图和用户指定相机轨迹中,合成空间连贯的 RGB-D 视频。

空间一致的视频扩散模子

磋议提议可延迟的天下缓存机制,以看守空间一致性并扼制视觉幻象(Visual Lallucination)。

该机制垄断生成的 3D 场景构建一个运转的 3D 点云缓存,然后将此缓存投影到标的相机视图中,为扩散模子生成提供指示。生成的帧不休更新并延迟天下缓存,从而创建一个闭环系统,该系统营救随心相机轨迹,同期保合手几何一致性。

长距离天下探索

为处罚单次生成长距离视频的局限,提议市欢平滑视频采样的天下缓存有打算,用于自细致天下探索。

营救 VR、游戏、物体裁剪与物理仿真,无尽应用可能

成绩于 HunyuanWorld-1.0 的分层 3D 网格暗意法,生成的 3D 网格天下大要高效营救多种专科应用场景,包括诬捏现实(VR)、游戏设立、物体裁剪和物理仿真四大中枢范畴。

诬捏现实(VR)应用

通过全景天下代理(panoramic world proxies),HunyuanWorld-1.0 生成 360 ° 无缝袒护的环境,可胜利部署至主流 VR 平台如 Apple Vision Pro,营救解放视角旋转和探索,适用于诬捏旅游、讲明培训等场景,提供简直的临场感。

游戏设立应用

生成的 3D 网格天下导出为圭臬阵势,无缝集成行业引擎如 Unity 和 Unreal Engine,营救快速构建各样化场景,包括外星景不雅、中叶纪古迹和将来都市,加快游戏原型设立和施行迭代,同期保合手高保真视觉质地。

物体裁剪应用

基于解耦对象暗意(disentangled object representations),用户可在场景中对单个元素进行精确 3D 操控,包括平移、旋转和缩放,而不会浮松环境全体性。

这为交互式遐想提供了生动性,举例在诬捏环境中诊治物体布局或创建定制场景,适用于建筑预览、艺术创作等范畴,提高用户猖狂的解放度。

物理仿真应用

导出的分层网格兼容主流物理引擎,营救碰撞检测、刚体能源学和流体模拟等简直天下行为仿真。这确保了场景元素(如物体和地形)的物理属性准确再现,适用于自动驾驶测试、工程模拟等专科范畴,杀青从视觉到行为的全链路一致性。

论文聚合:https://arxiv.org/abs/2507.21809

Github 款式地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

款式主页:https://3d-models.hunyuan.tencent.com/world/

体验地址:https://3d.hunyuan.tencent.com/sceneTo3D

Hugging Face 模子地址:https://huggingface.co/tencent/HunyuanWorld-1

一键三连「点赞」「转发」「谨防心」

接待在驳斥区留住你的思法!

—  完  —

� � 点亮星标 � �

科技前沿发扬逐日见九游会j9体育(中国)官方网站