EMO

3周前发布 885 0 186

一个创新的音频驱动肖像视频生成工具,凭借其简单的输入方式、丰富的表情生成能力、多语言支持以及对多种肖像风格的兼容性

收录时间:
2025-02-17
EMOEMO
EMO

EMO

EMO是什么

EMO是由阿里巴巴集团智能计算研究所提出的一个音频驱动的肖像视频生成框架,能够根据单张参考图像和语音音频(如说话、唱歌)生成具有丰富表情和不同头部姿态的肖像视频,视频时长可根据输入音频的长度任意调整。

主要特点

  • 输入简单:仅需一张参考图像和一段音频作为输入,即可生成视频,降低了生成视频的门槛。
  • 表情丰富:生成的视频中人物表情生动自然,能够根据音频内容展现出相应的情感变化,如唱歌时的陶醉、说话时的专注等。
  • 多语言支持:支持多种语言的音频输入,无论是歌曲还是对话,都能准确识别并生成相应风格的视频,拓展了应用范围。
  • 风格多样:可对不同时代、不同风格的肖像进行动画化处理,包括古代画像、现代照片、3D模型以及AI生成内容等,赋予其栩栩如生的动态效果。
  • 动作流畅:通过特有的时空模块和注意力机制,确保生成的人物动作流畅自然,即使在快速节奏的音频下,也能保持与音频的精准同步。

主要功能

  • 生成唱歌视频:输入单个人物图像和唱歌音频,生成具有丰富表情和头部姿态的唱歌视频,时长与音频一致,且能长时间保持人物身份特征。
  • 生成说话视频:不仅能处理唱歌音频,还能应对多种语言的说话音频,为不同人物生成说话视频,让静态肖像“开口说话”。
  • 跨演员表演:可将电影角色等的肖像与不同语言和风格的音频结合,生成跨演员的表演视频,拓展角色表现的可能性,如让《小丑》中的角色用《蝙蝠侠:黑暗骑士》中的声音进行表演。

使用示例

  • 唱歌示例:输入一张歌手的肖像图片和一段其演唱的音频,EMO可生成该歌手的虚拟形象视频,视频中歌手的表情和头部动作会随着歌曲节奏和情感变化而变化,仿佛歌手本人在画面中演唱。
  • 说话示例:以AI Chloe(来自游戏《底特律:变人》)的肖像和一段采访音频为输入,生成AI Chloe“说话”的视频,其面部表情和口型会根据音频内容进行相应调整,使虚拟角色更具真实感。
  • 跨演员表演示例:将电影《小丑》中Joaquin Rafael Phoenix饰演的小丑角色肖像与《蝙蝠侠:黑暗骑士》中的音频结合,生成小丑用不同风格和语言进行表演的视频,展现角色在多语言、多文化背景下的表现力。

总结

EMO是一个创新的音频驱动肖像视频生成工具,凭借其简单的输入方式、丰富的表情生成能力、多语言支持以及对多种肖像风格的兼容性,在数字内容创作、虚拟形象制作、影视制作等领域具有广阔的应用前景,能够为创作者提供强大的技术支持,创造出更具吸引力和表现力的动态肖像视频作品。

相关导航