Xiaomi MiMo

产品概述

Xiaomi MiMo 是小米推出的大型基础模型系列，专为在真实世界场景中驱动智能 Agent 系统而设计。最新的 V2 系列包含三款专业化模型：MiMo-V2-Pro，面向复杂 Agent 工作负载的万亿参数旗舰模型，支持 100 万 token 上下文窗口；MiMo-V2-Omni，原生多模态基础模型，将文本、视觉与音频感知融合为统一的 Agent 流水线；以及 MiMo-V2-TTS，具备精细多层次声音风格控制的语音合成模型。三款模型共同覆盖从推理、感知到执行与语音输出的完整链路。所有模型均可通过 API 和网页 Demo 访问，并计划开源发布。

主要功能

前沿智能体推理	MiMo-V2-Pro 拥有 1T 总参数（激活 42B），采用混合注意力架构，支持 100 万 token 上下文窗口——在 Artificial Analysis Intelligence Index 全球排名第 8，并在真实世界智能体基准测试（GDPval-AA）中位居中国大模型第一。
全栈全模态感知	MiMo-V2-Omni 原生融合文本、视觉与音频理解，支持视听联合推理、多说话人分离，以及超过 10 小时的连续音频理解——在音频理解基准测试上超越 Gemini 3 Pro。
富有表现力的语音合成	MiMo-V2-TTS 采用自研 Audio Tokenizer 与多码本语音-文本联合建模，实现多层次声音风格控制——从整体语调到句中情感切换——并在歌唱中准确还原音高与节奏。
Agent 框架集成	MiMo-V2-Pro 作为 OpenClaw 的原生大脑，并与 OpenCode、KiloCode、Blackbox、Cline 等框架深度集成，在 PinchBench 和 ClawEval 上取得全球领先成绩。
API 与开发者接入	三款模型均可通过 MiMo 开发者平台（platform.xiaomimimo.com）访问，提供兼容 OpenAI 的 API，并已集成至小米自有产品 MiMo Studio 和小米浏览器。

使用场景

自主 Agent 工作流：工程团队和企业可将 MiMo-V2-Pro 部署为 Agent 系统的推理核心，处理多步骤任务规划、工具调用以及生产级软件工程任务，最大程度减少人工干预。
多模态内容理解：需要对视频、音频和文本进行联合解析的开发者——如会议分析、媒体监控或无障碍工具——可借助 MiMo-V2-Omni 的统一感知流水线构建应用。
智能语音应用：产品团队可使用 MiMo-V2-TTS 构建语音助手、有声书朗读工具或角色对话系统，支持细腻的情感表达与方言。
复杂编程与工程：软件开发者可使用 MiMo-V2-Pro 完成高强度编程任务，其编码能力超越 Claude 4.6 Sonnet，100 万 token 上下文可在单次处理中覆盖大型代码库。
生产力平台集成：办公及企业软件厂商（如金山办公）可通过标准化 API 将 MiMo 模型嵌入文档编辑、摘要生成和工作流自动化场景。

常见问题（FAQ）

什么是 Xiaomi MiMo？

MiMo 是小米推出的大型基础模型系列。V2 系列包含三款模型：MiMo-V2-Pro（智能体推理）、MiMo-V2-Omni（多模态感知）和 MiMo-V2-TTS（语音合成）。

MiMo-V2-Pro 与其他领先模型相比如何？

它在 Artificial Analysis Intelligence Index 全球排名第 8，在中国大模型中排名第 2。在 GDPval-AA（真实世界 Agent 任务）上，Elo 得分为 1426，超越 GLM-5 Reasoning 和 Qwen3.5 397B。其编码能力超越 Claude 4.6 Sonnet。

MiMo-V2-Omni 与普通多模态模型有何不同？

它将文本、视觉与音频原生融合在单一模型中，而非作为附加模块拼接。它支持视听联合推理、多说话人分离，以及对超过 10 小时音频流的深度理解，在音频基准测试上超越 Gemini 3 Pro。

MiMo-V2-TTS 除基础文字转语音外还能做什么？

它支持多层次风格控制：可设置整体音色，并对同一句话中的不同短语施加不同情感。它还支持中国地区方言，并在合成歌唱时准确还原音高与节奏。

如何访问 MiMo 模型？

可通过 platform.xiaomimimo.com 的 API、mimo.xiaomi.com 的网页 Demo，或通过 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等第三方集成访问。小米自有产品 MiMo Studio 和小米浏览器也已支持。

MiMo 模型会开源吗？

小米已声明，待模型稳定后计划开源发布，与此前 MiMo V1 的开源实践保持一致。

MiMo-V2-Pro 的上下文窗口是多大？

100 万 token（1,048,576 tokens），最大输出 32,000 tokens。这使其非常适合大型代码库分析和长周期 Agent 任务执行。

MiMo-V2-Pro 原生支持哪些 Agent 框架？

它经过微调，作为 OpenClaw 的原生大脑，在 OpenClaw 标准基准测试 PinchBench 和 ClawEval 上取得顶尖成绩。同时也与 OpenCode、KiloCode、Blackbox 和 Cline 集成。

发现好站？

Xiaomi MiMo

产品概述

主要功能

使用场景

常见问题（FAQ）