【資料圖】
9月5日,在百度云智大會上,百度智能云聯(lián)合度小滿推出《智算中心網(wǎng)絡架構白皮書》。白皮書由百度智能云和度小滿負責高性能網(wǎng)絡落地的一線專家撰寫,內(nèi)容覆蓋了高性能網(wǎng)絡建設的各個方面,包括不同規(guī)模集群的架構選擇、云平臺上的可視化運維工具建設、多租戶的運營方案設計等,為同業(yè)提供全流程指導,讓復雜的高性能網(wǎng)絡建設變得簡單。
大模型需要大算力,如何建設高性能網(wǎng)絡是其中最為關鍵的一步。度小滿今年5月正式開源了國內(nèi)首個千億參數(shù)金融大模型——“軒轅”。在金融場景中的任務評測中,軒轅全面超越了市場上的主流開源大模型,贏得了150次回答中63.33%的勝率。隨著大模型的迅猛發(fā)展,模型對于底層算力的需求呈指數(shù)性增長,智能算力規(guī)模的持續(xù)擴大帶來的是GPU算力部署規(guī)模日益膨脹,對于高性能網(wǎng)絡的要求也日益增多。
隨著度小滿模型參數(shù)規(guī)模超過千億,為滿足不斷增加的算力需求、度小滿私有云模式的智算中心也在不斷升級,低時延、大帶寬、穩(wěn)定性運行、可運維性高的大規(guī)模智算網(wǎng)絡正是智算中心搭建的重要基石。在建設私有云模式的智算中心的過程中,度小滿聯(lián)合百度智能云,構建了一套私有云智算網(wǎng)絡,在支撐萬卡GPU規(guī)模的同時,相較于業(yè)內(nèi)常見的Dragonfly、Tours網(wǎng)絡拓撲,網(wǎng)絡帶寬更充足,節(jié)點間跳步數(shù)更穩(wěn)定性,網(wǎng)絡延時指標縮短到3微秒以內(nèi),具備端到端的可觀測性能力與故障自愈能力,無阻塞、低時延、高可靠的網(wǎng)絡設計有效支撐了上層智算應用的快速迭代和發(fā)展,為“軒轅”大模型的訓練提供了穩(wěn)定的網(wǎng)絡保障。
目前,度小滿智算網(wǎng)絡中心已建設成為國內(nèi)金融行業(yè)首批私有云模式下的萬卡規(guī)模智算中心,為“軒轅”大模型的訓練提供了穩(wěn)定的網(wǎng)絡保障。
推廣