news center
廣鵬產(chǎn)品案例社區(qū)一個AI機器人有多會聊天?ChatGPT實力“聊”出了史上增長最快的消費級應用,上線短短兩個月,月活用戶突破1億,每天用約有1300萬獨立訪客與之對話。敲代碼、寫論文、編劇本……這位多才多藝的“全能網(wǎng)友”,引爆了新一輪的人工智能熱潮。
然而,當紅的ChatGPT也正經(jīng)歷著“成長的煩惱”。從GPT到GPT-3,優(yōu)化迭代主要源自模型的增大,訓練參數(shù)量從1.17億增加到1750億,模型訓練使用的數(shù)據(jù)量高達0.4萬億token,如此龐大的數(shù)據(jù)體量,對于分布式集群的運算效率提出了極高要求。事實上,不只是ChatGPT,整個AI產(chǎn)業(yè)的大規(guī)模商用都在經(jīng)歷算力限制的陣痛。如何在整體資源有限的條件下,讓應用獲取更多的計算資源,提升機器學習效率,人工智能和算網(wǎng)融合領域的前沿課題——在網(wǎng)計算(In Network Computing)成為其中一種有效解決方案。
讓網(wǎng)絡設備參與計算
突破集群計算效率瓶頸
數(shù)據(jù)顯示,過去5年GPU算力增長近90倍,而網(wǎng)絡帶寬僅增長10倍。受網(wǎng)絡通信能力的限制,分布式集群的運算效率無法隨其規(guī)模線性增長,網(wǎng)絡通信能力日漸成為人工智能模型訓練成熟發(fā)展的瓶頸。傳統(tǒng)的計算集群,計算過程以計算節(jié)點為中心,網(wǎng)絡僅用于節(jié)點間的互聯(lián)。當各計算節(jié)點之間進行一對多或多對多的集合通信時,多次通信交互不僅會影響計算效率,也會增加網(wǎng)絡負載,出現(xiàn)通信時延過大、通信效率降低等問題。作為算網(wǎng)融合核心技術之一的“在網(wǎng)計算”技術,是通過在網(wǎng)絡中部署對報文進行解析的算力,將部分計算任務從主機側(cè)遷移至網(wǎng)絡側(cè),由交換機、路由器、智能網(wǎng)卡、DPU等設備或部件完成計算加速的技術。通過網(wǎng)絡設備自身算力的共享,在不改變業(yè)務原有運行模式的前提下,在網(wǎng)計算將HPC和AI分布式計算的集合通信的操作卸載到網(wǎng)絡設備上,讓網(wǎng)絡設備參與計算,減少計算節(jié)點之間的消息交互,降低通信延遲,從而提高網(wǎng)絡帶寬利用效率,加速HPC和AI分布式計算效率。
加速布局在網(wǎng)計算
推動“網(wǎng)絡計算化”演進
作為數(shù)字化解決方案領導者,紫光股份旗下新華三集團以科技創(chuàng)新為引領,基于在網(wǎng)絡和計算領域深厚的技術積淀,主動擔起在網(wǎng)計算技術的產(chǎn)業(yè)化探索職責,快速在網(wǎng)絡設備端完成研發(fā)落地。全面支持在網(wǎng)計算的H3C P4可編程交換機支持Pytorch框架和DPDK UDP、RoCE通信方式,能夠?qū)?shù)據(jù)需求聚合統(tǒng)一操作,優(yōu)化通信網(wǎng)絡擁堵,減少主機的數(shù)據(jù)處理量。據(jù)新華三集團內(nèi)部實驗室測算,使用H3C P4可編程交換機加速數(shù)據(jù)并行訓練,模型訓練精度不受影響,計算節(jié)點間通信數(shù)據(jù)量平均減少30%,最多可以減少48%的訓練時間,可大幅提升分布式集群的整體訓練效率,創(chuàng)造更加出色的應用價值。
在網(wǎng)計算作為計算、網(wǎng)絡融合發(fā)展的關鍵技術,不僅有效解決了HPC和AI分布式計算的集合通信問題,為提升數(shù)據(jù)中心的集群規(guī)模帶來了新的方案和思路,同時也將進一步加速算網(wǎng)融合“網(wǎng)絡計算化”演進,推動網(wǎng)絡從連接算力到感知、承載、調(diào)配算力的角色升級,助力算網(wǎng)融合縱深發(fā)展。從AlphaGo擊敗圍棋世界冠軍,到ChatGPT火遍全球,人工智能時代正在加速到來。面向未來,在“云智原生”戰(zhàn)略指引下,新華三集團將以前瞻視野精耕科技,深入數(shù)字科技的實際應用場景,為人工智能與經(jīng)濟社會的融合注入強大的創(chuàng)新動能,深度賦能百行百業(yè)的數(shù)字化轉(zhuǎn)型和智能化升級。