多租户异构集群智能调度与资源管理系统

历时 3 年自主研发,面向异构智算场景,打造支持国产化软硬件的智能调度与资源管理系统!

系统展示

多类型作业支持

本系统支持多种类型作业的创建使用,包括Jupyter Lab任务、单机任务、Pytorch任务、Tensorflow任务等。其中Jupyter Lab任务的提交过程如图所示,为用户默认提供了Jupyter Notebook交互环境,可以用于代码编写、调试,界面如图所示。

系统界面展示
作业任务监控

作业任务监控

本系统支持查看作业详情,提供作业的全方位信息展示和监控功能。用户可以通过该模块了解作业的运行状态、资源配置和使用情况等关键信息。如图展示了作业统计信息的示例。

多种深度学习环境配置方式

本系统提供了四种构建深度学习环境的方式,如图所示,包括Python+Cuda自定义构建、基于 Dockerfile 构建、基于高级 Envd 脚本构建、基于现有镜像构建,四种构建方式为用户提供了灵活多样的构建选择,可以满足用户不同的作业构建需求。

系统界面展示
作业任务监控

多维度监控面板

本系统构建了一个涵盖多个维度的监控体系,包括GPU总监控、空闲资源监控、网络监控、作业基础监控和作业加速卡监控。

模型和数据集管理

▶为方便当前人工智能模型的分享和调参,如图所示,本系统也支持通过模型功能来分享和挂载模型。与数据集功能相似,用户可以通过添加模型,选择文件夹并自定义名称、描述、标签、是否有开源地址,来创建模型。
▶数据集和模型实质上都是对文件的一个映射,用户可以创建一个数据集或模型,映射文件系统上某个文件的位置,同时,可以将这个数据集共享给其他用户或者账户,这样能方便用户在运行任务时挂载所需的文件。

模型和数据集管理
系统管理员功能介绍

系统管理员功能介绍

▶本系统支持管理员创建不同的账户,如图所示。管理员可以新建账户,并设置对应的资源配额,然后为账户添加用户,从而起到良好的资源隔离效果。
▶管理员还可以设置多种定时策略。如自动清理长时间作业、自动清理低GPU利用率作业、自动清理排队中的 jupyter任务,如图所示。管理员可以在定时策略页面设置相应的自动清理的周期、邮件通知周期、自动清理触发条件(如GPU利用率)等,从而实现高效的资源利用。