系統(tǒng)概述:
異構(gòu)算力調(diào)動平臺是基于MLOPS的AI平臺,提供算力自動調(diào)度、數(shù)據(jù)自動標(biāo)注和算法自動訓(xùn)練能力 ,通過可視化操作和自動化的流程管理讓用戶零代碼即可快速上線智能應(yīng)用,打造數(shù)據(jù)、算力和算法“三位一體”、“端到端”的企業(yè)級人工智能平臺解決方案。
返回
Introduce
(1)異構(gòu)算力調(diào)度
基于云原生技術(shù)架構(gòu),實(shí)現(xiàn)對英偉達(dá)GPU/華為NPU/寒武紀(jì)MLU/海光DCU等異構(gòu)計(jì)算資源的管理和動態(tài)調(diào)度,支持統(tǒng)一納管多套異構(gòu)Kubernetes計(jì)算集群,并提供組織管理、用戶管理、角色管理、計(jì)費(fèi)管理、監(jiān)控管理、日志管理、告警管理等功能模塊。
(2)AI使能
預(yù)置主流大模型,讓用戶“零代碼”即可實(shí)現(xiàn)大模型訓(xùn)練、微調(diào)和推理應(yīng)用。針對大規(guī)模分布式訓(xùn)練場景,提供“故障重調(diào)度“和”斷點(diǎn)續(xù)訓(xùn)“能力(華為NPU),支持臨終遺言(CKPT)和策略恢復(fù)功能。
集成機(jī)器學(xué)習(xí)工作流引擎,預(yù)置數(shù)據(jù)處理、模型訓(xùn)練等“100+算子“組件,支持基于可視化的“拖拉拽”方式構(gòu)建模型“訓(xùn)推一體”流水線,打造基于“樣本回流“的數(shù)據(jù)閉環(huán)機(jī)制,讓AI模型“邊用邊學(xué)、越用越好”。