英特尔实验室根据文本提示创建 360 度沉浸式图像-Win 11系统之家

英特尔的研究部门在IEEE/CVF计算机视觉和模式识别会议（CVPR）上展示了新技术。英特尔实验室与 Blockade Labs 合作，最近推出了一种独特的扩散模型，名为 3D 潜在扩散模型（LDM3D）。这种创新的生成人工智能（AI）扩散模型旨在从文本提示生成逼真的 3D 视觉内容。查看下面的 VR 演示。

“本研究论文提出了一种3D潜在扩散模型（LDM3D），该模型从给定的文本提示生成图像和深度图数据，允许用户从文本提示生成RGBD图像。

LDM3D是该领域的先驱，是第一个能够使用扩散过程生成深度图的模型，从而产生具有完整3度视图的生动和身临其境的360D图像。LDM3D 的潜在用途跨越多个行业，包括游戏、娱乐、建筑和设计，它有望极大地改变内容创作和数字体验的格局。

“生成式人工智能技术旨在进一步增强和增强人类的创造力并节省时间。然而，当今的大多数生成式 AI 模型仅限于生成 2D 图像，只有极少数可以从文本提示生成 3D 图像。

与现有的潜在稳定扩散模型不同，LDM3D允许用户使用几乎相同数量的参数从给定的文本提示生成图像和深度图。与用于深度估计的标准后处理方法相比，它为图像中的每个像素提供了更准确的相对深度，并为开发人员节省了大量开发场景的时间，“英特尔实验室 AI/ML 研究科学家 Vasudev Lal 说。

生成式人工智能技术旨在增强和放大人类的创造力，同时节省宝贵的时间。然而，目前的生成式AI模型主要生成2D图像，只有少数能够从文本提示生成3D图像。

LDM3D与标准不同，使用户能够使用与潜在稳定扩散模型几乎相同数量的参数，从给定的文本提示生成图像和深度图。与用于深度估计的标准后处理技术相比，这种方法为图像中的每个像素提供了更精确的相对深度，从而大大减少了开发人员在场景开发上花费的时间。

来自文本提示的 360 度图像

这项研究的潜在影响是深远的，有望改变我们与数字内容互动的方式。通过允许用户以全新的方式可视化其文本提示，LDM3D 能够将热带海滩、现代摩天大楼或科幻宇宙的文本描述转换为详细的 360 度全景图。

这种捕获深度信息的能力可以极大地增强真实感和沉浸感，为广泛的行业开辟新的应用，从游戏和娱乐到室内设计和房地产列表，以及虚拟博物馆和沉浸式虚拟现实（VR）体验。

为了构建用于训练LDM3D的数据集，使用了来自LAION-10M数据库的000，400个样本的子集，其中包括超过400亿个图像标题对。之前在英特尔实验室开发的密集预测转换器（DPT）大深度估计模型用于注释训练语料库。DPT 大模型为图像中的每个像素提供高度准确的相对深度。

英特尔实验室根据文本提示创建 360 度沉浸式图像

来自文本提示的 360 度图像

相关推荐

谁最喜欢我

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏