产品概述
INFP 是一个先进系统,能将静态肖像图像转变为交互式的说话头像视频,在多回合对话中自然地在说话和倾听状态之间切换。不同于需要手动角色分配的传统方法,INFP 使用音频输入动态引导代理的面部表情和头部动作,以高保真度捕捉语言和非语言线索。它利用涉及动作潜在空间编码和条件扩散变换器的新型两阶段过程,由真实双向对话的大规模 DyConv 数据集支持。该框架实现实时性能并保留个人面部细节和说话风格,适用于需要逼真虚拟头像和交互式代理的应用。
主要功能
| 动态角色切换 | 基于双向音频输入,自动在说话和倾听状态之间切换动画头像,无需手动干预。 |
| 两阶段动作生成 | 结合基于动作的头部模仿和音频引导的动作映射,产生自然同步的面部和头部动作。 |
| 通用性和实时性 | 支持任何个人的静态图像并实时生成动画,实现广泛应用。 |
| 高保真面部细节保留 | 通过双重注意力机制和风格调节,保持个人面部特征和说话风格。 |
| 大规模对话数据集 | 基于广泛的真实对话集合进行训练,提升系统的真实感和互动质量。 |
使用场景
- 虚拟通信助手:创建用于客户服务、虚拟助手和社交机器人的响应式头像,能自然地参与对话。
- 内容创作和娱乐:为讲故事、配音和互动媒体生成口型同步的说话头像视频。
- 远程教育和培训:开发能对音频输入做出视觉响应的互动导师或演示者,增强学习者参与度。
- 社交媒体和营销:制作个性化视频消息和具有逼真动画肖像的宣传内容。

