OmniHuman-1：重新思考单阶段条件人类动画模型的放大-Win 11系统之家

https://omnihuman-lab.github.io/

TL;DR：我们提出了一种名为 OmniHuman 的端到端多模态条件人类视频生成框架，它可以基于单个人类图像和运动信号（例如，仅音频、仅视频或音频和视频的组合）生成人类视频。在 OmniHuman 中，我们引入了一种多模态运动调节混合训练策略，使模型能够从混合调节的数据扩展中受益。这克服了以前的端到端方法由于缺乏高质量数据而面临的问题。OmniHuman 的性能明显优于现有方法，它根据微弱的信号输入（尤其是音频）生成极其逼真的人类视频。它支持任何纵横比的图像输入，无论是纵向、半身还是全身图像，在各种场景中提供更逼真和高质量的结果。目前，我们不在任何地方提供服务/下载，也没有该项目的任何 SNS 帐户。请小心欺诈信息。我们将及时提供有关未来发展的最新信息。

生成的视频

OmniHuman 支持各种视觉和音频样式。它可以生成任何纵横比和身体比例（人像、半身、全身一体）的逼真人体视频，真实感源于包括运动、照明和纹理细节在内的综合方面。

*请注意，要生成此页面上的所有结果，只需要任何单个图像和音频，但展示视频和组合驾驶信号的演示除外。为了布局简洁，我们省略了参考图像的显示，在大多数情况下，参考图像是生成视频的第一帧。如果您需要比较或更多信息，请随时与我们联系。

多样性

在输入多样性方面，OmniHuman 支持卡通、人造物体、动物和具有挑战性的姿势，确保运动特性与每种风格的独特特征相匹配。

歌唱

OmniHuman 可以支持各种音乐风格，并适应多种身体姿势和歌唱形式。它可以处理高音调的歌曲，并为不同类型的音乐显示不同的运动风格。请记住选择最高的视频质量。生成的视频质量在很大程度上还取决于参考图像的质量。

与视频驾驶的兼容性

由于 OmniHuman 的混合条件训练特性，它不仅可以支持音频驾驶，还可以支持视频驾驶以模拟特定的视频动作，以及结合音频和视频驾驶来控制特定的身体部位，就像最近的方法一样。

OmniHuman-1：重新思考单阶段条件人类动画模型的放大

生成的视频

多样性

更多人像案例

歌唱

与视频驾驶的兼容性

相关推荐

谁最喜欢我

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

生成的视频

多样性

更多 人像案例

歌唱

与视频驾驶的兼容性

相关推荐

谁最喜欢我

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

更多人像案例