### [dstack](https://dkwy.com/) **Published:** 2026-05-06T07:54:40 **Author:** 蛋壳 **Excerpt:** dstack是Kubernetes和Slurm的简化替代方案,专为简化AI开发、训练和部署的容器编排而设计。它支持包括NVIDIA、AMD、Google TPU、Intel Gaudi和Tenstorrent在内的广泛加速器,并与主要云提供商和本地集群无缝协作。dstack提供统一的接口,用于管理开发环境、调度分布式任务、部署可扩展的模型服务、处理GPU集群队列以及管理持久存储卷。其配置基于YAML,便于版本控制和自动化。通过抽象基础设施复杂性,dstack加速AI工作流程,降低机器学习团队的运营开销。 ## 产品概述 dstack是Kubernetes和Slurm的简化替代方案,专为简化AI开发、训练和部署的容器编排而设计。它支持包括NVIDIA、AMD、Google TPU、Intel Gaudi和Tenstorrent在内的广泛加速器,并与主要云提供商和本地集群无缝协作。dstack提供统一的接口,用于管理开发环境、调度分布式任务、部署可扩展的模型服务、处理GPU集群队列以及管理持久存储卷。其配置基于YAML,便于版本控制和自动化。通过抽象基础设施复杂性,dstack加速AI工作流程,降低机器学习团队的运营开销。 ## 主要功能 | | | | --- | --- | | **加速器与云服务无关性** | 支持多种GPU和AI加速器,如NVIDIA、AMD、TPU、Intel Gaudi和Tenstorrent,并与所有主要云服务提供商以及本地服务器集成。 | | **统一AI工作流界面** | 为开发环境、任务调度、具有自动扩缩的服务部署、资源集群管理和持久化存储卷提供专用配置,覆盖整个AI生命周期。 | | **简化配置和自动化** | 使用声明式YAML文件定义环境、作业、服务和集群,通过简单的CLI或API应用,自动化完成资源供应、扩展和网络配置。 | | **经济高效的多云和本地管理** | 实现灵活使用云和本地资源,避免供应商锁定,优化GPU利用率和云成本。 | | **开源且具有可扩展生态系统** | 100%开源,积极开发,支持与流行的AI框架和工具集成,如PyTorch、HuggingFace和vLLM。 | ## 使用场景 - **交互式开发环境:**快速创建由GPU驱动的远程开发环境,可从桌面IDE访问,用于快速实验和编码。 - **分布式训练和微调:**在集群或单节点上调度和运行复杂的训练任务,支持DeepSpeed和HuggingFace Accelerate等框架。 - **模型部署和推理:**部署可扩展、安全且自动扩缩的模型端点,兼容自定义服务框架和OpenAI API。 - **集群和资源队列管理:**管理跨云和本地的异构GPU集群,实现高效的资源共享和扩展。 - **AI工作负载的持久存储:**使用网络卷在多次运行和环境之间持久化存储数据集、检查点和缓存。 ---