系統概述:
異構算力調動平台是基于MLOPS的(de)AI平台,提供算力自動調度、數據自動标注和(hé)算法自動訓練能(néng)力 ,通過可(kě)視化操作和(hé)自動化的(de)流程管理(lǐ)讓用(yòng)戶零代碼即可(kě)快速上(shàng)線智能(néng)應用(yòng),打造數據、算力和(hé)算法“三位一體”、“端到(dào)端”的(de)企業(yè)級人(rén)工(gōng)智能(néng)平台解決方案。
返回
Introduce
(1)異構算力調度
基于雲原生技術(shù)架構,實現對英偉達GPU/華爲NPU/寒武紀MLU/海(hǎi)光(guāng)DCU等異構計(jì)算資源的(de)管理(lǐ)和(hé)動态調度,支持統一納管多套異構Kubernetes計(jì)算集群,并提供組織管理(lǐ)、用(yòng)戶管理(lǐ)、角色管理(lǐ)、計(jì)費管理(lǐ)、監控管理(lǐ)、日志管理(lǐ)、告警管理(lǐ)等功能(néng)模塊。
(2)AI使能(néng)
預置主流大(dà)模型,讓用(yòng)戶“零代碼”即可(kě)實現大(dà)模型訓練、微調和(hé)推理(lǐ)應用(yòng)。針對大(dà)規模分(fēn)布式訓練場(chǎng)景,提供“故障重調度“和(hé)”斷點續訓“能(néng)力(華爲NPU),支持臨終遺言(CKPT)和(hé)策略恢複功能(néng)。
集成機器(qì)學習(xí)工(gōng)作流引擎,預置數據處理(lǐ)、模型訓練等“100+算子“組件(jiàn),支持基于可(kě)視化的(de)“拖拉拽”方式構建模型“訓推一體”流水(shuǐ)線,打造基于“樣本回流“的(de)數據閉環機制(zhì),讓AI模型“邊用(yòng)邊學、越用(yòng)越好”。