产品概述
dstack是Kubernetes和Slurm的简化替代方案,专为简化AI开发、训练和部署的容器编排而设计。它支持包括NVIDIA、AMD、Google TPU、Intel Gaudi和Tenstorrent在内的广泛加速器,并与主要云提供商和本地集群无缝协作。dstack提供统一的接口,用于管理开发环境、调度分布式任务、部署可扩展的模型服务、处理GPU集群队列以及管理持久存储卷。其配置基于YAML,便于版本控制和自动化。通过抽象基础设施复杂性,dstack加速AI工作流程,降低机器学习团队的运营开销。
主要功能
| 加速器与云服务无关性 | 支持多种GPU和AI加速器,如NVIDIA、AMD、TPU、Intel Gaudi和Tenstorrent,并与所有主要云服务提供商以及本地服务器集成。 |
| 统一AI工作流界面 | 为开发环境、任务调度、具有自动扩缩的服务部署、资源集群管理和持久化存储卷提供专用配置,覆盖整个AI生命周期。 |
| 简化配置和自动化 | 使用声明式YAML文件定义环境、作业、服务和集群,通过简单的CLI或API应用,自动化完成资源供应、扩展和网络配置。 |
| 经济高效的多云和本地管理 | 实现灵活使用云和本地资源,避免供应商锁定,优化GPU利用率和云成本。 |
| 开源且具有可扩展生态系统 | 100%开源,积极开发,支持与流行的AI框架和工具集成,如PyTorch、HuggingFace和vLLM。 |
使用场景
- 交互式开发环境:快速创建由GPU驱动的远程开发环境,可从桌面IDE访问,用于快速实验和编码。
- 分布式训练和微调:在集群或单节点上调度和运行复杂的训练任务,支持DeepSpeed和HuggingFace Accelerate等框架。
- 模型部署和推理:部署可扩展、安全且自动扩缩的模型端点,兼容自定义服务框架和OpenAI API。
- 集群和资源队列管理:管理跨云和本地的异构GPU集群,实现高效的资源共享和扩展。
- AI工作负载的持久存储:使用网络卷在多次运行和环境之间持久化存储数据集、检查点和缓存。
