技術(shù)
導(dǎo)讀:中國電信廣東公司聯(lián)合阿里云宣布在廣東韶關(guān)數(shù)據(jù)中心集群上線“粵港澳大灣區(qū)首個(gè)基于‘真武’芯片的萬卡智算集群”,該集群實(shí)現(xiàn)了從芯片、云平臺(tái)到模型應(yīng)用的全鏈路自主研發(fā)。
4 月 8 日消息,中國電信廣東公司聯(lián)合阿里云宣布在廣東韶關(guān)數(shù)據(jù)中心集群上線“粵港澳大灣區(qū)首個(gè)基于‘真武’芯片的萬卡智算集群”,該集群實(shí)現(xiàn)了從芯片、云平臺(tái)到模型應(yīng)用的全鏈路自主研發(fā)。
據(jù)悉,該集群在技術(shù)層面實(shí)現(xiàn)了多項(xiàng)關(guān)鍵突破。通過卡間 RoCE 高性能組網(wǎng)、雙平面多軌通信等技術(shù)創(chuàng)新,集群端到端網(wǎng)絡(luò)時(shí)延低至 4 微秒,網(wǎng)絡(luò)峰值利用率超過 95%,能夠高效滿足大模型訓(xùn)練過程中 AllReduce、AlltoAll 等超大流量通信需求,穩(wěn)定承載千億參數(shù)級(jí)大模型的預(yù)訓(xùn)練與推理任務(wù)。
在生態(tài)兼容方面,“真武”芯片全面適配主流 AI 生態(tài),自研軟件棧高效適配各類主流模型、框架、算子庫及操作系統(tǒng),具備統(tǒng)一的編程接口,可端到端支持用戶自主業(yè)務(wù)落地與擴(kuò)展,大幅降低客戶遷移成本。
為進(jìn)一步推動(dòng)算力普惠,該集群資源同步在“廣東電信算力超市”上線,通過集約運(yùn)營,面向中小企業(yè)提供按卡、按小時(shí)計(jì)費(fèi)的算力零售服務(wù)。同時(shí),集群未來預(yù)計(jì)持續(xù)擴(kuò)容至十萬卡規(guī)模,惠及大灣區(qū)更多科研機(jī)構(gòu)、企業(yè)政務(wù)部門以更低成本、更高效率使用算力資源。