基于 DolphinScheduler 构建分布式大数据调度平台实践
本文整理自白鲸开源联合创始人、Apache DolphinScheduler PMC Chair、Apache Foundation Member 代立冬的演讲。主要介绍DolphinScheduler简介及架构、DolphinScheduler与OceanBase 联合方案。
DolphinScheduler是什么?
Apache DolphinScheduler是一个云原生并带有强大可视化界面的大数据工作流调度平台,致力于在数据工作流编排中“解决复杂的大数据任务间的依赖及触发关系,让各大数据任务类型开箱即用”,对数据分析、数据挖掘等场景进行全流程、可视化操作。目前已有 3000+ 公司在生产环境使用。
Apache DolphinScheduler UI 界面
DolphinScheduler 调度平台具备简单易用、架构设计上保证系统高可靠性、高扩展性和云原生能力,拥有丰富的使用场景。
- 高可靠性
- 架构设计上,去中心化的多 Master 和多 Worker , 具备高可用能力。
- 采用任务队列避免过载,不会造成机器卡死。
- 简单易用
- 拥有一键部署能力,简化部署,易维护。
- 可视化界面,所有流程定义都是可视化,通过拖拽任务形成工作流模板。
- 支持 Open API 、Python 方式与第三方系统对接。
- ·高扩展性、云原生能力
- 支持自定义任务类型。
- 调度能力随集群线性增长。
- 弹性伸缩, Master 和 Worker 支持动态上下线。
- 丰富的使用场景
- 支持暂停恢复及停止等丰富操作。
- 支持多租户,权限管理等大数据应用场景。
- 支持 30+ 种任务类型,如 Spark, Flink,Hive, MR, Python, Shell 等。