产品概述
Ploomber 旨在简化数据科学与机器学习 pipeline 的开发与部署,帮助用户将脚本、notebook 或函数转化为易维护的 pipeline。它解决了 notebook 重构的常见难题,让团队可在 Jupyter notebook 中原型开发并顺利部署,无需中断工作流。Ploomber 支持 Python、SQL 及 notebook 任务,自动追踪代码变更以优化执行,并可部署于 Kubernetes 及各类云平台。
主要功能
| 模块化 Pipeline 构建 | 将脚本、notebook 或函数集合转化为具备明确任务依赖和输出的 pipeline。 |
| 无缝 Jupyter 集成 | 可在 Jupyter notebook 或任意编辑器中交互式开发,无需重写代码即可部署 pipeline。 |
| 增量式执行 | 自动缓存结果,仅重新执行源码发生变化的任务,加快开发周期。 |
| 多环境部署 | 可在本地或分布式系统(如 Kubernetes、Airflow、AWS Batch、SLURM)上部署 pipeline,无需修改代码。 |
| 遗留 Notebook 重构 | 自动将大型 notebook 转换为模块化、易维护的 pipeline。 |
| 丰富的任务类型支持 | 在同一个 pipeline 中支持 Python 函数、脚本、notebook 及 SQL 脚本。 |
使用场景
- 数据科学流程自动化:通过模块化、可复用组件,简化数据处理与模型训练 pipeline 的构建。
- 协作式机器学习开发:支持团队成员协作原型开发、共享与部署 pipeline,保障代码不被破坏。
- 遗留 Notebook 现代化:将现有 Jupyter notebook 转换为生产可用的 pipeline,提升可维护性。
- 可扩展的 Pipeline 部署:可在本地运行 pipeline,或轻松扩展至云端和集群环境。
- 增量式 Pipeline 执行:仅重新运行变更部分,优化开发效率。

