TL;DR:我们提出了一种名为 OmniHuman 的端到端多模态条件人类视频生成框架,它可以基于单个人类图像和运动信号(例如,仅音频、仅视频或音频和视频的组合)生成人类视频。在 OmniHuman 中,我们引入了一种多模态运动调节混合训练策略,使模型能够从混合调节的数据扩展中受益。这克服了以前的端到端方法由于缺乏高质量数据而面临的问题。OmniHuman 的性能明显优于现有方法,它根据微弱的信号输入(尤其是音频)生成极其逼真的人类视频。它支持任何纵横比的图像输入,无论是纵向、半身还是全身图像,在各种场景中提供更逼真和高质量的结果。目前,我们不在任何地方提供服务/下载,也没有该项目的任何 SNS 帐户。请小心欺诈信息。我们将及时提供有关未来发展的最新信息。

生成的视频
OmniHuman 支持各种视觉和音频样式。它可以生成任何纵横比和身体比例(人像、半身、全身一体)的逼真人体视频,真实感源于包括运动、照明和纹理细节在内的综合方面。
*请注意,要生成此页面上的所有结果,只需要任何单个图像和音频,但展示视频和组合驾驶信号的演示除外。为了布局简洁,我们省略了参考图像的显示,在大多数情况下,参考图像是生成视频的第一帧。如果您需要比较或更多信息,请随时与我们联系。
多样性
在输入多样性方面,OmniHuman 支持卡通、人造物体、动物和具有挑战性的姿势,确保运动特性与每种风格的独特特征相匹配。
更多 人像案例
在这里,我们还包括一个专门用于肖像纵横比结果的部分,这些结果来自 CelebV-HQ数据集中的测试样本。
歌唱
OmniHuman 可以支持各种音乐风格,并适应多种身体姿势和歌唱形式。它可以处理高音调的歌曲,并为不同类型的音乐显示不同的运动风格。请记住选择最高的视频质量。生成的视频质量在很大程度上还取决于参考图像的质量。
与视频驾驶的兼容性
由于 OmniHuman 的混合条件训练特性,它不仅可以支持音频驾驶,还可以支持视频驾驶以模拟特定的视频动作,以及结合音频和视频驾驶来控制特定的身体部位,就像最近的方法一样。
Win 11系统之家