近日,快手和蘇黎世理工宣布開源分布式訓(xùn)練框架 Bagua(八卦),相比于 PyTorch、TensorFlow 等現(xiàn)有深度學(xué)習(xí)開源框架僅針對(duì)系統(tǒng)層面進(jìn)行優(yōu)化,Bagua 突破了這一點(diǎn),專門針對(duì)分布式場景設(shè)計(jì)了特定的優(yōu)化算法,實(shí)現(xiàn)了算法和系統(tǒng)層面的聯(lián)合優(yōu)化,性能較同類提升 60%。
研發(fā)背景
隨著摩爾定律的失效,單個(gè)計(jì)算單元的能力已經(jīng)遠(yuǎn)遠(yuǎn)無法滿足數(shù)據(jù)的指數(shù)級(jí)增長。比如,快手每天上傳的新視頻超過千萬條,即便訓(xùn)練簡單的分類模型(比如 ResNet),使用單機(jī)單卡的算力,訓(xùn)練快手日內(nèi)新增視頻都需要超過一百天的時(shí)間。因此,在數(shù)據(jù)爆炸性增長的互聯(lián)網(wǎng)行業(yè),多機(jī)多卡的并行訓(xùn)練成為了大數(shù)據(jù)時(shí)代的必然。隨著深度學(xué)習(xí)模型功能的日益強(qiáng)大,分布式訓(xùn)練任務(wù)的通信成本和所需算力也隨之急劇增長。
然而,由于多機(jī)多卡并行帶來的額外通訊成本,加速比(speedup)經(jīng)常讓大家失望,從而形成了大廠“堆資源”,沒資源的“干瞪眼”的局面。比如,Google 的 Downpour 框架 [1] 使用 80 個(gè) GPU 訓(xùn)練 ImageNet,加速比卻只有 12/80=15%。因此如何提升多機(jī)多卡中訓(xùn)練的通訊效率成為了并行訓(xùn)練乃至解決數(shù)據(jù)爆炸性增長的核心問題之一。
項(xiàng)目 GitHub 地址:https://github.com/BaguaSys/bagua
現(xiàn)有的深度學(xué)習(xí)開源框架(PyTorch,TensorFlow)主要針對(duì)系統(tǒng)層面優(yōu)化,把已有的單機(jī)單卡優(yōu)化算法擴(kuò)展到多機(jī)多卡的場景。雖然系統(tǒng)層面的優(yōu)化使得并行效率不斷提升,但是邊際效益卻越來越明顯。針對(duì)這個(gè)問題,快手和蘇黎世理工(ETH Zürich)聯(lián)合開發(fā)了一款名為“Bagua”的分布式訓(xùn)練框架,突破單純的系統(tǒng)層面優(yōu)化,專門針對(duì)分布式的場景設(shè)計(jì)特定的優(yōu)化算法,實(shí)現(xiàn)算法和系統(tǒng)層面的聯(lián)合優(yōu)化,極致化分布式訓(xùn)練的效率。用戶只需要添加幾行代碼,便能把單機(jī)單卡訓(xùn)練擴(kuò)展到多機(jī)多卡訓(xùn)練并得到非??捎^的加速比。
Bagua 設(shè)計(jì)思路
從單機(jī)單卡的訓(xùn)練到多機(jī)多卡訓(xùn)練的核心,是每個(gè)卡把自己的計(jì)算結(jié)果進(jìn)行累加和傳播。這個(gè)過程好比每個(gè)人把自己知道的信息傳遞給他人,然后又從其他人那里獲取信息,最后完成全局的信息同步。如果把計(jì)算單元之間的信息同步類比為人與人之間的信息同步,那么社會(huì)實(shí)踐經(jīng)驗(yàn)告訴我們,“八卦”可能是消息傳遞最高效的模式?!鞍素浴毕鞑ゾ哂腥ブ行幕惒酵ㄓ崱⑿畔嚎s的特點(diǎn),這與 Bagua 里面實(shí)現(xiàn)的通訊算法剛好一一呼應(yīng)。
為了提升分布式訓(xùn)練效率,Bagua 實(shí)現(xiàn)了自研以及前沿的算法,包括去中心化/中心化、同步/異步以及通訊壓縮等基礎(chǔ)通訊組件,通過軟硬結(jié)合的設(shè)計(jì)極致優(yōu)化了這些組件的效率,并且靈活支持這些算法的組合,以及更復(fù)雜的算法設(shè)計(jì)。
Bagua 將通信過程抽象成了如下的算法選項(xiàng):
中心化或是去中心化(Centralized or Decentralized):在中心化的通訊模式中,梯度或模型的同步過程需要所有的工作節(jié)點(diǎn)進(jìn)行參與,因此,較高的網(wǎng)絡(luò)延時(shí)往往會(huì)導(dǎo)致訓(xùn)練效率的降低。去中心化的通信模式 [5,6] 往往可以有效的解決這一問題:在該模式下,工作節(jié)點(diǎn)可以被連接成特定的拓?fù)浣Y(jié)構(gòu)(例如環(huán)),在通信過程中,每一個(gè)工作節(jié)點(diǎn)只與和它相鄰的節(jié)點(diǎn)進(jìn)行通信。
同步或是異步(Synchronous or Asynchronous):同步模式中,在每一次迭代過程中,所有工作節(jié)點(diǎn)都需要進(jìn)行通信,并且下一步迭代必須等待當(dāng)前迭代的通信完成才能開始。反之,異步式分布算法 [2] 則不需要等待時(shí)間:當(dāng)某個(gè)節(jié)點(diǎn)完成計(jì)算后就可直接傳遞本地梯度,進(jìn)行模型更新。
完整精度模式或信息壓縮模式(Full-Precision or Low-Precision):完整精度模式,會(huì)使用與本地模型相同的 32 位浮點(diǎn)數(shù)(float32)進(jìn)行傳輸。另一方面,在通訊存在瓶頸的情況下,基于大量已有研究通過量化 (quantization [3]) 或稀疏化 (sparsification [4]) 等方法壓縮梯度,再用壓縮后的梯度更新參數(shù)。在很多場景下,可以達(dá)到和完整精度相同的精度,同時(shí)提升通訊效率。
雖然為了提升通訊效率,Bagua 沒有依照傳統(tǒng)的方式同步所有計(jì)算節(jié)點(diǎn)的結(jié)果,甚至每次同步的信息還有偏差,但是得益于最新理論上的進(jìn)展,這幾種通訊策略以及他們的組合最終收斂解的正確性和效率仍然能得到充分保證,而且計(jì)算復(fù)雜度跟同步中心化和信息無損的方法相當(dāng),但是通訊效率更高 [10]。
值得注意的是,在實(shí)踐中,分布式訓(xùn)練算法往往會(huì)使用不止一種上述的優(yōu)化方法,從而適配更為極端的網(wǎng)絡(luò)環(huán)境 [7,8,9]。對(duì)于分布式算法感興趣的讀者,我們?cè)谶@里推薦一份最新的完整綜述報(bào)告 [10]。Bagua 提供了一套詳盡的通信模式來支持用戶在上述模式中任意選擇組合,我們將這一分布式訓(xùn)練系統(tǒng)對(duì)于上述算法選項(xiàng)的支持情況總結(jié)在下表中:
從表格中不難看出,現(xiàn)有框架的優(yōu)化只是針對(duì)較為通用的算法(中心化同步完整精度),對(duì)于其他的算法組合,這些系統(tǒng)的支持非常有限。對(duì)于中心化同步進(jìn)行信息壓縮,這些系統(tǒng)往往只能支持較為簡單的 float32->float16 壓縮,相較而言,Bagua 則可以支持更為復(fù)雜的 ByteGrad,QAdam 等算法。對(duì)于其他的算法組合,現(xiàn)有的框架通常無法支持,而 Bagua 則可以自由支持。
然而,簡單地支持這項(xiàng)算法選項(xiàng)并不能直接在大規(guī)模集群上帶來性能的提升。Bagua 的核心優(yōu)勢(shì)在于,為了追求極致化的性能,而實(shí)現(xiàn)算法和實(shí)現(xiàn)的聯(lián)合優(yōu)化。具體來講,基于上述的通信層抽象,用戶既可以方便得選擇系統(tǒng)提供的各種算法組合從而獲得性能提升,又能靈活得實(shí)現(xiàn)新的分布式 SGD 算法 —— Bagua 將自動(dòng)為這一算法實(shí)現(xiàn)提供系統(tǒng)層優(yōu)化。這些系統(tǒng)優(yōu)化包含:
將通訊時(shí)間隱藏在計(jì)算時(shí)間中:為了降低通信開銷,Bagua 能夠?qū)⒉糠滞ㄐ艜r(shí)間隱藏在計(jì)算時(shí)間中。具體來講,在反向梯度的計(jì)算過程中,部分已經(jīng)完成的梯度可以在剩余梯度的計(jì)算過程中同時(shí)進(jìn)行通信——通過這種流水的處理方式,部分通信時(shí)間可以被有效地“隱藏”在反向梯度的計(jì)算過程中,從而減小數(shù)據(jù)并行帶來的通信開銷。
l 參數(shù)分桶及其內(nèi)存管理:頻繁的傳輸碎片化數(shù)據(jù),會(huì)降低通信的效率。因此,Bagua 將模型參數(shù)分割成桶,并且分配連續(xù)的內(nèi)存空間來對(duì)每一個(gè)桶進(jìn)行管理,這樣通訊的單位就變成了桶,從而能夠更高效地利用通信模型。此外,由于支持了信息壓縮算法,對(duì)于壓縮和解壓的函數(shù),其操作的基本單位也是桶,這樣也能使得這些操作的開銷降低。
l 分層化的通信實(shí)現(xiàn):由于工業(yè)級(jí)別的分布式訓(xùn)練往往需要多機(jī)多卡,而不同物理連接方式所帶來的延時(shí)和帶寬也有較大差異,因此,通訊的有效抽象也對(duì)性能的提升至關(guān)重要。Bagua 將涉及多機(jī)的通信抽象成:“機(jī)內(nèi)”和“機(jī)間”,并對(duì)于相應(yīng)的通信抽象做了優(yōu)化。例如,對(duì)于信息壓縮傳輸,分層化通訊將會(huì)把這一算法解讀成“機(jī)內(nèi)”完整精度,“機(jī)間”信息壓縮,從而為不同的物理鏈接提供最合適的通信算法。
我們想要強(qiáng)調(diào)的是,這些系統(tǒng)實(shí)現(xiàn)層面的優(yōu)化是對(duì)于各種算法組合廣泛適用,而非局限在某一特定的算法設(shè)置上。因此,所有的系統(tǒng)優(yōu)化都可以被靈活的復(fù)用到各種算法實(shí)現(xiàn)中去,這在保證“端到端”的性能提升的同時(shí),也為開發(fā)新的分布式算法提供了良好的平臺(tái)。
經(jīng)過實(shí)驗(yàn),Bagua 的特點(diǎn)如下:
l 并行性能顯著提高:在 ImageNet 數(shù)據(jù)集上,相較當(dāng)前開源分布式框架(PyTorch-DDP,Horovod,BytePS),當(dāng)配置同樣的算力(128GPU)與通信網(wǎng)絡(luò)(100Gbps),達(dá)到相同的訓(xùn)練精度,Bagua 只需其他框架 80% 左右的時(shí)間;
l 對(duì)網(wǎng)絡(luò)環(huán)境更魯棒:由于有效的支持了各類算法優(yōu)化(信息壓縮,異步,和去中心化),Bagua 在各類網(wǎng)絡(luò)環(huán)境下(包括不同延時(shí)和帶寬)都體現(xiàn)出了良好的適配性。尤其是在高延遲低帶寬的情況下,Bagua 體現(xiàn)出比其他框架更優(yōu)的加速比,比如:在 10Gbps 網(wǎng)絡(luò)帶寬環(huán)境下,同樣的 ImageNet 任務(wù),Bagua 只需其他框架 50% 左右的訓(xùn)練時(shí)間來達(dá)到同樣的訓(xùn)練精度;
l “一鍵式”使用:Bagua 對(duì)于端用戶非常友好,現(xiàn)有利用 PyTorch 的模型都可以作為 Bagua 的輸入,Bagua 將自動(dòng)為其提供豐富的并行方案——只需增加幾行代碼,訓(xùn)練就可以運(yùn)行在分布式集群上;
l 分布式通訊算法易拓展性:Bagua 提供了針對(duì)算法的高拓展性,對(duì)于分布式優(yōu)化算法的開發(fā)者,Bagua 提供了有效的通訊抽象,開發(fā)者實(shí)現(xiàn)的新算法也可以直接復(fù)用 Bagua 的系統(tǒng)優(yōu)化;
l 可用于工業(yè)級(jí)場景大規(guī)模使用:Bagua 為 Kubernetes 實(shí)現(xiàn)了定制化的 operator,支持云原生部署,同時(shí)考慮機(jī)器資源和故障問題,有機(jī)結(jié)合 PyTorch Elastic 和 Kubernetes 實(shí)現(xiàn)了容災(zāi)功能和動(dòng)態(tài)訓(xùn)練擴(kuò)縮容。用戶可以通過使用 Bagua ,在少量機(jī)器空閑時(shí)就開始訓(xùn)練,在更多機(jī)器資源釋放的情況下,訓(xùn)練任務(wù)自動(dòng)擴(kuò)容到更多機(jī)器。同時(shí)機(jī)器節(jié)點(diǎn)損壞時(shí),自動(dòng)剔除壞節(jié)點(diǎn)繼續(xù)訓(xùn)練。方便工業(yè)級(jí)訓(xùn)練場景使用,也方便與機(jī)器學(xué)習(xí)平臺(tái)結(jié)合使用;
l 安全、故障易排查:Bagua 通訊后端由注重內(nèi)存安全、速度和并發(fā)性的 Rust 語言實(shí)現(xiàn),在編譯期就排除了大量的內(nèi)存安全問題。同時(shí)基于 tracing 實(shí)現(xiàn)了分模塊、分層級(jí)的 log 輸出,使得實(shí)際場景中故障排查更加輕松。
此外,Bagua 在快手內(nèi)部也經(jīng)過了工業(yè)級(jí)任務(wù)的實(shí)踐檢驗(yàn),Bagua 已經(jīng)在快手內(nèi)部多個(gè)核心業(yè)務(wù)場景投入使用,相較其他開源框架取得了顯著的性能提升:
l 大規(guī)模自然語言處理(GPT2-xl 量級(jí)大小的模型),提升效率 65%
l 大規(guī)模圖像識(shí)別(10+ 億圖像 / 視頻),提升效率 20%~30%
l 大規(guī)模語音識(shí)別(TB 級(jí)別語音資料),提升效率 20%~30%
l 大規(guī)模推薦系統(tǒng)(萬億級(jí)別參數(shù)模型訓(xùn)練,支持億級(jí)別 DAU 的應(yīng)用),提升效率 100% 以上
Bagua 和其他開源方案的性能對(duì)比
快手選用了包括圖像,文本,語音,圖像文本混合等多個(gè)訓(xùn)練任務(wù)對(duì) Bagua 的性能進(jìn)行測(cè)試,并與 PyTorch-DDP,Horovod,BytePS 進(jìn)行比較。得益于 Bagua 系統(tǒng)的高效性和算法的多樣性,Bagua 可以在不同任務(wù)中選用相應(yīng)最優(yōu)的算法,從而保證在訓(xùn)練精度和其他系統(tǒng)持平的前提下,訓(xùn)練速度明顯提高。值得注意的是,當(dāng)網(wǎng)絡(luò)狀況不佳時(shí),Bagua 系統(tǒng)的優(yōu)勢(shì)將更加明顯。下面我們選取 GPT2-XL,BERT-Large 和 VGG16 三個(gè)典型的通信密集型任務(wù)進(jìn)行對(duì)比說明,更多結(jié)果可在 Bagua 論文和網(wǎng)站中(https://github.com/BaguaSys/bagua)進(jìn)一步了解。
1. End-to-end 訓(xùn)練時(shí)間對(duì)比
下圖展示了在 128 個(gè) V100 GPU 上 fine-tune BERT-Large (SQuAD 數(shù)據(jù)集),模型 F1 精度隨訓(xùn)練時(shí)間的變化曲線。Bagua 使用 QAdam-1bit 算法加速,機(jī)器之間采用 100Gbps TCP/IP 網(wǎng)絡(luò)互聯(lián)。我們可以看到,即使在高速網(wǎng)絡(luò)下,達(dá)到相同的訓(xùn)練精度,Bagua 需要的時(shí)間僅為其他系統(tǒng)的 60%。
2. 擴(kuò)展性對(duì)比
下圖展示了各個(gè)系統(tǒng)在 VGG16 模型(ImageNet 數(shù)據(jù)集)上的訓(xùn)練速度與 GPU 數(shù)量之間的關(guān)系。在測(cè)試中分別使用了 1,8,16,32,64,128 個(gè) V100 GPU 進(jìn)行測(cè)試。該任務(wù)中 Bagua 使用 8bitsGrad 算法加速??梢钥闯?Bagua 的擴(kuò)展效率相比其他系統(tǒng)有較明顯的提升。
下圖展示了各個(gè)系統(tǒng)在 GPT2-XL 模型上的訓(xùn)練速度與 GPU 數(shù)量之間的關(guān)系。GPT2-XL 模型有 1.5 billion 參數(shù),在大模型中具有一定代表性。Bagua 使用 8bitsGrad 算法加速。在測(cè)試中分別使用了 8,16,32,64,80 個(gè) V100 GPU 進(jìn)行測(cè)試。同樣可以看出 Bagua 的擴(kuò)展效率相比其他系統(tǒng)有較明顯的提升。
3. 不同網(wǎng)絡(luò)環(huán)境對(duì)比
算法是 Bagua 的靈魂。當(dāng)網(wǎng)絡(luò)環(huán)境變化時(shí),不同的算法會(huì)表現(xiàn)出不同的性能特點(diǎn)。在下圖中,我們以 BERT-Large fine-tune 為例,調(diào)整機(jī)器之間網(wǎng)絡(luò)的帶寬和延遲,對(duì)比 Bagua 中各個(gè)算法的 epoch 時(shí)間??梢钥闯觯S著帶寬降低,壓縮算法的優(yōu)勢(shì)會(huì)越來越明顯,且和壓縮程度相關(guān);當(dāng)延遲逐漸升高,去中心化算法逐漸展現(xiàn)出優(yōu)勢(shì)。除此之外,當(dāng)網(wǎng)絡(luò)環(huán)境不佳時(shí),Bagua 對(duì)比其他系統(tǒng)的優(yōu)勢(shì)也進(jìn)一步擴(kuò)大。
Bagua 使用實(shí)例
在已有的訓(xùn)練腳本中使用 Bagua 非常簡單,在代碼中算法使用者只需要增加如下幾行代碼對(duì)已有模型進(jìn)行初始化操作即可。以使用 GradientAllReduce 算法為例:
首先,我們需要 import 一下 bagua
import bagua.torch_api as bagua
隨后,我們可以初始化 Bagua 的進(jìn)程組:
torch.cuda.set_device(bagua.get_local_rank())bagua.init_process_group()
對(duì)于數(shù)據(jù)集的初始化,Bagua 完全兼容 PyTorch 的實(shí)現(xiàn):
train_dataset = ...test_dataset = ...train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset, num_replicas=bagua.get_world_size(), rank=bagua.get_rank())train_loader = torch.utils.data.DataLoader( train_dataset, batch_size=batch_size, shuffle=(train_sampler is None), sampler=train_sampler,)test_loader = torch.utils.data.DataLoader(test_dataset, ...)
最后,用戶只需要選擇要訓(xùn)練的模型和優(yōu)化器即可以使用 bagua:
# 定義模型model = ...model = model.cuda()# 定義優(yōu)化器optimizer = ...# 選擇 Bagua 算法來使用from bagua.torch_api.algorithms import gradient_allreduce# 實(shí)例化 Bagua 算法algorithm = gradient_allreduce.GradientAllReduceAlgorithm()# 對(duì)現(xiàn)有模型啟用 Bagua 算法model = model.with_bagua( [optimizer], algorithm)
這樣,使用 Bagua 的多機(jī)多卡訓(xùn)練算法就實(shí)現(xiàn)完成了。完整例子和更多場景,歡迎參考 Bagua Tutorial 文檔(https://github.com/BaguaSys/bagua)。
論文: https://arxiv.org/abs/2107.01499
項(xiàng)目 GitHub 地址:https://github.com/BaguaSys/bagua
參考文獻(xiàn)
[1] Dean, Jeffrey, Greg S. Corrado, Rajat Monga, Kai Chen, Matthieu Devin, Quoc V. Le, Mark Z. Mao et al. “Large scale distributed deep networks.” (2012).
[2] Zhengyuan Zhou, Panayotis Mertikopoulos, Nicholas Bambos, Peter Glynn, Yinyu Ye, Li-Jia Li, and Li Fei-Fei. 2018. Distributed asynchronous optimization with unbounded delays: How slow can you go?. In International Conference on Machine Learning. PMLR, 5970–5979.
[3] DanAlistarh, DemjanGrubic, JerryLi, RyotaTomioka, and MilanVojnovic. 2016. QSGD: Communication-efficient SGD via gradient quantization and encoding. arXiv preprint arXiv:1610.02132 (2016).
[4] Dan Alistarh, Torsten Hoefler, Mikael Johansson, Sarit Khirirat, Nikola Konstanti- nov, and Cédric Renggli. 2018. The convergence of sparsified gradient methods. In Proceedings of the 32nd International Conference on Neural Information Processing Systems. 5977–5987.
[5] Anastasia Koloskova, Sebastian Stich, and Martin Jaggi. 2019. Decentralized stochastic optimization and gossip algorithms with compressed communication. In International Conference on Machine Learning. PMLR, 3478–3487.
[6] Xiangru Lian, Ce Zhang, Huan Zhang, Cho-Jui Hsieh, Wei Zhang, and Ji Liu. 2017. Can decentralized algorithms outperform centralized algorithms? a case study for decentralized parallel stochastic gradient descent. In Proceedings of the 31st International Conference on Neural Information Processing Systems. 5336–5346.
[7] Christopher De Sa, Matthew Feldman, Christopher Ré, and Kunle Olukotun. 2017. Understanding and optimizing asynchronous low-precision stochastic gradient descent. In Proceedings of the 44th Annual International Symposium on Computer Architecture. 561–574.
[8] Xiangru Lian, Wei Zhang, Ce Zhang, and Ji Liu. 2018. Asynchronous decentral- ized parallel stochastic gradient descent. In International Conference on Machine Learning. PMLR, 3043–3052.
[9] Hanlin Tang, Shaoduo Gan, Ce Zhang, Tong Zhang, and Ji Liu. 2018. Com- munication compression for decentralized training. In Proceedings of the 32nd International Conference on Neural Information Processing Systems. 7663–7673.
[10] Ji Liu, Ce Zhang, et al. 2020. Distributed Learning Systems with First-Order Methods. Foundations and Trends? in Databases 9, 1 (2020), 1–100.
- QQ:61149512