Puo's 学习园地
http://puo.cn

阿里开源数字人工具:让照片开口说话,效果惊艳到爆!

想象一下,当你在博物馆中欣赏一幅古老的人物画作时, 你不再需要阅读旁边枯燥的说明文字。画作本身就会向你讲述它的故事,描述它的创作背景,甚至透露出画家的情感和意图。这不仅是一次视觉的享受,更是一次心灵的触动。

甚至在我们的日常生活中,当我们翻看家庭相册时,那些尘封的记忆可以被重新唤醒。每一张照片都能讲述它背后的故事,让我们重新体验那些珍贵的时刻。

本文我将介绍阿里蚂蚁集团开源的 “让照片说话” 的 AI 开源项目 —— EchoMimic。

EchoMimic 是一个创新的肖像视频动画生成技术,它能够通过音频信号和面部关键点两种驱动方式,以及它们的组合来生成生动的肖像视频。该技术基于 Stable Diffusion(SD)框架,采用了 Latent Diffusion Model(LDM)和 Variational Autoencoder(VAE),通过向潜空间表示中引入高斯噪声并进行去噪过程来生成图像。

EchoMimic 的核心是 Denoising U-Net 架构,它包括 Reference U-Net、Landmark Encoder 和 Audio Encoder 三个专门的模块,以及 Temporal Attention Layer,用于确保视频序列的时间一致性。

近期热文

EchoMimic 官方示例

音频驱动唱歌

音频驱动讲英文

音频驱动讲英文

音频驱动讲中文

音频驱动讲中文

EchoMimic 快速上手

  1. 克隆项目
git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic
  1. 创建虚拟环境
conda create -n echomimic python=3.8
conda activate echomimic
  1. 安装依赖项目
pip install -r requirements.txt
  1. 下载预训练权重
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights
  1. 下载 ffmpeg-static
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static
  1. 运行推理
  python -u infer_audio2vid.py
  python -u infer_audio2vid_pose.py

https://github.com/BadToBest/EchoMimic

往期文章

欢迎您与我交流 AI 技术/工具

关注 AI 真好玩,带你玩转各类 AI 工具,掌控数字未来!

如果这篇文章对您有所帮助,请点赞、关注,并分享给您的朋友。感谢您的支持!

 

打赏
允许转载,请注明转载地址:Puo's 学习园地 » 阿里开源数字人工具:让照片开口说话,效果惊艳到爆!

评论 抢沙发

做一个好的个人学习园地

主要网建,域名、集装箱物流、生活方法论的学习及研究,整理等内容

网址导航222域名店

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册