网站首页 > 技术教程 正文
阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。
与传统方法不同的是,LivePhoto在开源文生图模型Stable Diffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。
研究人员将LivePhoto与主流模型Gen-2、Pikalabs进行了比较,经过多轮测试效果非常卓越。
论文地址:https://arxiv.org/abs/2312.02928
从论文来看,LivePhoto模型主要由三大模块组成:首先是图像内容控制模块,通过多种策略提供强大的像素级和语义级图像指导,从而确保生成序列中每一帧的视觉内容与原图保持高度一致。
其次是运动建模模块,基于知名开源模型Stable Diffusion,仅训练插入的特定组件来捕捉帧间隐含的运动模式。
,时长01:21
案例展示
第三个是额外控制指令模块,是一种运动强度估计和文本重新加权的方法,可有效减少文本到运动映射中的歧义,使得所生成的图像动画视频更好地遵循文本指令描述。
图像内容控制
为了实现生成内容与参考图像保持一致,LivePhoto使用了三种图像指导方法: 1)参考潜在表示拼接通过VAE编码器提取参考图像的潜在表示,并直接拼接到模型输入中,实现像素级指导。
2)内容编码器,使用了预训练的DINOv2网络提取参考图像的图像块表示,并通过新增的交叉注意力层注入到UNet网络中,提供全局内容约束。
3)先验反向映射,在推理阶段,将参考潜在表示的反向映射混合到高斯噪声中,为细节生成提供先验知识。
此外,LivePhoto冻结了Stable Diffusion模型的部分功能,仅训练插入了其中的可学习运动模块,用来构建不同帧间的运动联系。相当于每个UNet组件中插入了一个运动模块,采用了类似AnimateDiff的结构。
额外指令
通过图像内容控制和运动模块,基本可以勾勒出大致的运动视频内容。但仍然无法精准控制运动方式,这是因为文本中同时包含内容和运动两个方面的描述,而参考图像起主导作用,容易造成内容描述对运动描述的抑制。
为解决这一问题,开发人员提出了两种额外的指令:
1)运动强度,考虑到文本指令本身很难准确表达运动特征, LivePhoto引入了一个1-10的值来参数化运动强度。这一超参数既可于训练时促进文本与运动的匹配,也为用户提供了方便的推理调节接口。
2)文本加权,为区分文本中与内容和运动相关的部分, LivePhoto设计了文本加权功能。
其目标是检测文本中与运动相关的维度,并对其进行加权放大。这可以减少内容描述带来的干扰,从而增强运动控制能力。
实验结果也证明,在运动强度指导和文本加权的帮助下,LivePhoto展现出了十分出色的零样本视频动画生成性能。
可以处理各种图像输入,同时遵循文本中对运动的描述生成视频。例如,不同的人或动物正在进行的动作,或者虚拟出文本所描写的场景。
此外,用户还可以通过简单调节运动强度的数值,自由定制视频中运动的方式。
本文素材来源LivePhoto论文,如有侵权请联系删除
END
猜你喜欢
- 2024-11-24 日常文案|Live Photos??一些碎片?1oo 一則实况新动态
- 2024-11-24 iOS 14新功能允许用户直接为照片添加标题
- 2024-11-24 Synology Photos都有什么好用的功能?这里有你想要的答案
- 2024-11-24 iPhone拍出的Live Photos照片不会动?这里设置错了!
- 2024-11-24 苹果OS X 10.11.4新增Live Photo支持
- 2024-11-24 ImgPlay : 一个转身,把照片、视频和 Live Photos 都转成了 GIF iOS
- 2024-11-24 【前沿】安卓微博客户端可以查看Live图了 你的手机行不行?
- 2024-11-24 Tumblr将支持Live Photos功能 仅限iOS设备
- 2024-11-24 怎么关闭iPhone 6s或Plus的Live Photos功能?
- 2024-11-24 iOS端OneDrive现支持上传Live Photos
你 发表评论:
欢迎- 最近发表
-
- linux CentOS检查见后门程序的shell
- 网络安全工程师演示:黑客是如何使用Nmap网络扫描工具的?
- Linux中ftp服务修改默认21端口等(linux修改ftp配置文件)
- Linux系统下使用Iptables配置端口转发,运维实战收藏!
- 谈谈TCP和UDP源端口的确定(tcp和udp的端口号相同吗)
- Linux 系统 通过端口号找到对应的服务及相应安装位置
- 快速查找NAS未占用端口!Docker端口秒级排查+可视化占坑双杀技
- 【知识杂谈#2】如何查看Linux的(本地与公网)IP地址与SSH端口号
- 如何在Linux中查询 DNS 记录,这三个命令可谓是最常用、最经典的
- 【Linux系统编程】特殊进程之守护进程
- 标签列表
-
- 下划线是什么 (87)
- 精美网站 (58)
- qq登录界面 (90)
- nginx 命令 (82)
- nginx .http (73)
- nginx lua (70)
- nginx 重定向 (68)
- Nginx超时 (65)
- nginx 监控 (57)
- odbc (59)
- rar密码破解工具 (62)
- annotation (71)
- 红黑树 (57)
- 智力题 (62)
- php空间申请 (61)
- 按键精灵 注册码 (69)
- 软件测试报告 (59)
- ntcreatefile (64)
- 闪动文字 (56)
- guid (66)
- abap (63)
- mpeg 2 (65)
- column (63)
- dreamweaver教程 (57)
- excel行列转换 (56)
本文暂时没有评论,来添加一个吧(●'◡'●)