Windows 11
微软最新的操作系统

OmniHuman-1:重新思考单阶段条件人类动画模型的放大

https://omnihuman-lab.github.io/

TL;DR:我们提出了一种名为 OmniHuman 的端到端多模态条件人类视频生成框架,它可以基于单个人类图像和运动信号(例如,仅音频、仅视频或音频和视频的组合)生成人类视频。在 OmniHuman 中,我们引入了一种多模态运动调节混合训练策略,使模型能够从混合调节的数据扩展中受益。这克服了以前的端到端方法由于缺乏高质量数据而面临的问题。OmniHuman 的性能明显优于现有方法,它根据微弱的信号输入(尤其是音频)生成极其逼真的人类视频。它支持任何纵横比的图像输入,无论是纵向、半身还是全身图像,在各种场景中提供更逼真和高质量的结果。目前,我们不在任何地方提供服务/下载,也没有该项目的任何 SNS 帐户。请小心欺诈信息。我们将及时提供有关未来发展的最新信息。

overall

生成的视频

OmniHuman 支持各种视觉和音频样式。它可以生成任何纵横比和身体比例(人像、半身、全身一体)的逼真人体视频,真实感源于包括运动、照明和纹理细节在内的综合方面。

*请注意,要生成此页面上的所有结果,只需要任何单个图像和音频,但展示视频和组合驾驶信号的演示除外。为了布局简洁,我们省略了参考图像的显示,在大多数情况下,参考图像是生成视频的第一帧。如果您需要比较或更多信息,请随时与我们联系。

多样性

在输入多样性方面,OmniHuman 支持卡通、人造物体、动物和具有挑战性的姿势,确保运动特性与每种风格的独特特征相匹配。

更多 人像案例

在这里,我们还包括一个专门用于肖像纵横比结果的部分,这些结果来自 CelebV-HQ数据集中的测试样本。

歌唱

OmniHuman 可以支持各种音乐风格,并适应多种身体姿势和歌唱形式。它可以处理高音调的歌曲,并为不同类型的音乐显示不同的运动风格。请记住选择最高的视频质量。生成的视频质量在很大程度上还取决于参考图像的质量。

与视频驾驶的兼容性

由于 OmniHuman 的混合条件训练特性,它不仅可以支持音频驾驶,还可以支持视频驾驶以模拟特定的视频动作,以及结合音频和视频驾驶来控制特定的身体部位,就像最近的方法一样。

赞(0) 打赏
未经允许不得转载:Win 11系统之家 » OmniHuman-1:重新思考单阶段条件人类动画模型的放大

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏