### [INFP](https://dkwy.com/)

**Published:** 2026-05-06T07:50:52

**Author:** 蛋壳

**Excerpt:** INFP 是一个先进系统，能将静态肖像图像转变为交互式的说话头像视频，在多回合对话中自然地在说话和倾听状态之间切换。不同于需要手动角色分配的传统方法，INFP 使用音频输入动态引导代理的面部表情和头部动作，以高保真度捕捉语言和非语言线索。它利用涉及动作潜在空间编码和条件扩散变换器的新型两阶段过程，由真实双向对话的大规模 DyConv 数据集支持。该框架实现实时性能并保留个人面部细节和说话风格，适用于需要逼真虚拟头像和交互式代理的应用。

## 产品概述

INFP 是一个先进系统，能将静态肖像图像转变为交互式的说话头像视频，在多回合对话中自然地在说话和倾听状态之间切换。不同于需要手动角色分配的传统方法，INFP 使用音频输入动态引导代理的面部表情和头部动作，以高保真度捕捉语言和非语言线索。它利用涉及动作潜在空间编码和条件扩散变换器的新型两阶段过程，由真实双向对话的大规模 DyConv 数据集支持。该框架实现实时性能并保留个人面部细节和说话风格，适用于需要逼真虚拟头像和交互式代理的应用。

## 主要功能

|     |     |
| --- | --- |
| **动态角色切换** | 基于双向音频输入，自动在说话和倾听状态之间切换动画头像，无需手动干预。 |
| **两阶段动作生成** | 结合基于动作的头部模仿和音频引导的动作映射，产生自然同步的面部和头部动作。 |
| **通用性和实时性** | 支持任何个人的静态图像并实时生成动画，实现广泛应用。 |
| **高保真面部细节保留** | 通过双重注意力机制和风格调节，保持个人面部特征和说话风格。 |
| **大规模对话数据集** | 基于广泛的真实对话集合进行训练，提升系统的真实感和互动质量。 |

## 使用场景

-   **虚拟通信助手：**创建用于客户服务、虚拟助手和社交机器人的响应式头像，能自然地参与对话。
-   **内容创作和娱乐：**为讲故事、配音和互动媒体生成口型同步的说话头像视频。
-   **远程教育和培训：**开发能对音频输入做出视觉响应的互动导师或演示者，增强学习者参与度。
-   **社交媒体和营销：**制作个性化视频消息和具有逼真动画肖像的宣传内容。


---