dstack

产品概述

dstack是Kubernetes和Slurm的简化替代方案，专为简化AI开发、训练和部署的容器编排而设计。它支持包括NVIDIA、AMD、Google TPU、Intel Gaudi和Tenstorrent在内的广泛加速器，并与主要云提供商和本地集群无缝协作。dstack提供统一的接口，用于管理开发环境、调度分布式任务、部署可扩展的模型服务、处理GPU集群队列以及管理持久存储卷。其配置基于YAML，便于版本控制和自动化。通过抽象基础设施复杂性，dstack加速AI工作流程，降低机器学习团队的运营开销。

主要功能

加速器与云服务无关性	支持多种GPU和AI加速器，如NVIDIA、AMD、TPU、Intel Gaudi和Tenstorrent，并与所有主要云服务提供商以及本地服务器集成。
统一AI工作流界面	为开发环境、任务调度、具有自动扩缩的服务部署、资源集群管理和持久化存储卷提供专用配置，覆盖整个AI生命周期。
简化配置和自动化	使用声明式YAML文件定义环境、作业、服务和集群，通过简单的CLI或API应用，自动化完成资源供应、扩展和网络配置。
经济高效的多云和本地管理	实现灵活使用云和本地资源，避免供应商锁定，优化GPU利用率和云成本。
开源且具有可扩展生态系统	100%开源，积极开发，支持与流行的AI框架和工具集成，如PyTorch、HuggingFace和vLLM。

使用场景

交互式开发环境：快速创建由GPU驱动的远程开发环境，可从桌面IDE访问，用于快速实验和编码。
分布式训练和微调：在集群或单节点上调度和运行复杂的训练任务，支持DeepSpeed和HuggingFace Accelerate等框架。
模型部署和推理：部署可扩展、安全且自动扩缩的模型端点，兼容自定义服务框架和OpenAI API。
集群和资源队列管理：管理跨云和本地的异构GPU集群，实现高效的资源共享和扩展。
AI工作负载的持久存储：使用网络卷在多次运行和环境之间持久化存储数据集、检查点和缓存。

常见问题（FAQ）

dstack与Kubernetes相比，对AI工作负载有何不同？

dstack专为AI打造，提供更简单、更直观的界面和专为机器学习工作流程量身定制的功能，不同于Kubernetes的通用性和复杂性。

dstack支持哪些硬件加速器？

dstack原生支持NVIDIA、AMD、Google TPU、Intel Gaudi和Tenstorrent加速器。

dstack能同时管理云端和本地GPU资源吗？

是的，dstack能够在多个云服务提供商和本地GPU集群之间无缝工作，实现混合部署。

dstack如何简化AI模型部署？

它提供自动扩缩、安全的服务部署，支持自定义服务框架和兼容OpenAI的API端点。

dstack是开源且可定制的吗？

是的，dstack完全开源，处于积极开发中，并支持与流行的AI框架和自定义Docker镜像集成。

如何在dstack中定义和应用配置？

您可以在YAML文件中定义配置，并通过dstack CLI或API应用它们，实现资源供应和编排的自动化。

dstack支持分布式训练作业吗？

是的，dstack支持使用任何开源训练框架在集群中调度分布式任务。

什么是dstack Sky？

dstack Sky是一项托管服务，它聚合了多个云提供商的GPU资源，简化了资源访问和计费。

发现好站？

dstack

产品概述

主要功能

使用场景

常见问题（FAQ）