推理性能是英偉達GPU的10倍?Groq的LPU什么來頭
2月20日晚,就在英偉達財報發(fā)布前夕,AI芯片初創(chuàng)公司Groq在社交媒體上引發(fā)了廣泛討論。Groq宣稱其LPU(語言處理器)的推理性能是英偉達GPU的10倍,而成本僅為其十分之一。 英偉達作為人工智能浪潮下的頭部企業(yè),近年來不乏“挑戰(zhàn)者”發(fā)起沖擊,那么此次LPU的表現如何? TSP+SRAM的新路徑 2月19日,Groq向用戶開放了產品體驗入口,其產品并非大模型,而類似于大模型加速接口。經由
2024-02-22 09:45:29
來源:中國電子報、電子信息產業(yè)網 王信豪??

2月20日晚,就在英偉達財報發(fā)布前夕,AI芯片初創(chuàng)公司Groq在社交媒體上引發(fā)了廣泛討論。Groq宣稱其LPU(語言處理器)的推理性能是英偉達GPU的10倍,而成本僅為其十分之一。

英偉達作為人工智能浪潮下的頭部企業(yè),近年來不乏“挑戰(zhàn)者”發(fā)起沖擊,那么此次LPU的表現如何?

TSP+SRAM的新路徑

2月19日,Groq向用戶開放了產品體驗入口,其產品并非大模型,而類似于大模型加速接口。經由Groq加速推理的開源大模型帶給人最直觀的感受便是“快”。

根據記者測試,Groq的推理性能達到了每秒270個Token左右,網友測試每秒最高可達500Token,這個速度在ArtificialAnalysis.ai的測試中表現也十分突出。

Groq與其他云服務廠商AI輸出Token數對比(圖片來源:ArtificialAnalysis.ai)

LPU在LLM和生成式AI上的表現為何快于GPU?

Groq表示,LPU旨在克服LLM的兩個瓶頸:計算密度和內存帶寬。就LLM而言,LPU的計算能力強于GPU和CPU,這減少了每個單詞的計算時間,從而可以更快地生成文本序列。此外,與GPU相比,消除外部內存瓶頸使LPU能夠在LLM上提供更好的性能。

在架構方面,Groq使用了TSP(張量流處理)來加速人工智能、機器學習和高性能計算中的復雜工作負載。根據Groq公開技術資料表示,TSP是一種功能切片的微架構,芯片上具有諸多計算模式被軟件預先定義好的功能片,其與數據流的關系如同工廠的流水線。當數據經過切片時,每個功能單元可以選擇性地截取所需數據并獲取計算結果,并將結果傳遞回數據流,原理類似于裝配線操作員(功能片)和傳送帶(數據流)——Groq公司首席執(zhí)行官Jonathan Ross比喻道。

RISC架構(左)和TSP架構(右)的簡要區(qū)別(圖片來源:Groq)

TSP的源頭是谷歌研發(fā)的TPU(張量處理器),值得一提的是,Ross就曾是谷歌TPU研發(fā)團隊成員之一。

在存儲性能方面,LPU另辟蹊徑,有別于傳統(tǒng)算力芯片對于SK海力士等存儲廠商所產HBM(高帶寬存儲)的依賴,轉而使用了易失性存儲器SRAM,這也省去了將HBM置于芯片時對臺積電COWOS封裝技術的需求。SRAM通常用于CPU的高速緩存,由于不需要刷新電路來保持數據,因此可提供高帶寬和低延遲。

可以說,在張量處理器上的技術積累加上別樣的存儲器選擇,共同造就了這個推理的效率“怪獸”。

實現落地仍有阻礙

盡管在Groq官方口徑中,以“快”著稱的推理性能確實優(yōu)于大模型普遍生成內容所使用的GPU,但是從實驗室數據到真正流入市場參與競爭,還有許多問題需要解決。

首先,LPU在市場最關心的成本問題上眾說紛紜。據Groq首席執(zhí)行官Jonathan Ross所說,在大模型推理場景中,Groq LPU芯片的速度比英偉達GPU快10倍,但價格和耗電量都僅為后者的十分之一。

看似極高的性價比,實際情況還有待推敲。原阿里技術副總裁賈揚清在社交媒體上算了一筆賬,因LPU的內存僅有230MB,在忽略推理時內存損耗的情況下想運行LLaMA2-70b這樣的大語言模型可能需要572張LPU,總購卡成本高達1144萬美元(按單卡標價2萬美元計算)。相比之下,8張英偉達H100的系統(tǒng)在性能上與Groq系統(tǒng)相當,但硬件成本僅為30萬美元。

其次是Groq LPU的適用范圍能否跟上AI應用的發(fā)展速度還是未知數。隨著OpenAI在2月初發(fā)布AI視頻生成平臺Sora,生成式人工智能走向新的階段。LPU雖然能實現對Token這一單元的快速處理,但是面對Sora的最小計算單元Patch,其處理效果如何還未可知。有觀點認為,LPU在架構上有所創(chuàng)新,但是僅針對特定算法、特定數據結構來設計芯片,在未來頻繁改變的AI發(fā)展節(jié)奏中可能會“曇花一現”。

目前Groq能夠提供兩個開源大模型的推理加速服務(圖片來源:Groq)

再回到“挑戰(zhàn)英偉達”的話題上,Groq所展現出來的解決方案背后是通用芯片與專用芯片的路徑分歧。Groq芯片專注于推理,從測試結果上看能夠達到令人滿意的“秒回”效果,但是這要依賴對大模型的前置訓練環(huán)節(jié),換言之,LPU的應用場景搭建,需以至少一個完成且開源的大模型為前提。

英偉達作為GPGPU(通用GPU)的頭部生產企業(yè),其A100和H100能夠覆蓋大模型訓練和推理的全部流程,而下一代芯片H200在H100的基礎上將存儲器HBM進行了一次升級,為的也是提升芯片在推理環(huán)節(jié)中的效率。在擁有牢固開發(fā)者生態(tài)的英偉達眼中,強化推理能力也是鞏固自身通用GPU市占率的手段。

英偉達的H200著重提升推理能力(圖片來源:英偉達)

目前看來,英偉達GPU的交付周期與全球云服務廠商的算力缺口仍存在一定不匹配,英偉達正在積極解決這一問題,與此同時,Groq的LPU能否分得一口蛋糕,還需等待大規(guī)模流片之后再看市場反響。

2023年8月14日,Groq宣布三星電子將為自己生產4nm芯片,首批LPU將于2024年下半年量產。Ross表示,在2年后Groq能夠部署100萬臺LPU。

最新文章
1
小熊電器早安破壁機的迭代邏輯:把用戶痛點變產品創(chuàng)新原點
2
居家觀影首選 海信激光電視探索X1 Ultra斬獲“新質卓越機型”大獎
3
治愈再升級!長虹電視攜手央視網未來電視,聯手打造熊貓AI TV
4
快手磁力引擎“春夏新引力”活動來襲,億級資源助力商家搶占換季先機
5
數據安全和個保工作再獲肯定 快手連續(xù)兩年獲評CCIA數安委最高級試點單位
6
快手電商“春茶嘗鮮季”助力春茶飄香,中華老字號借直播開拓生意新增量
7
快手電商助力泉州男裝運動產業(yè)帶發(fā)展,推動新老商家實現生意躍遷
8
電動兩輪車觀察:九號高增、小牛向好,雅迪、愛瑪業(yè)績分化明顯
9
頂級洗凈技術直面用戶痛點,美菱攜手蘇寧發(fā)布“寧小瞳”系列新品
10
2025年一季度家用空調市場“冷暖交鋒”:內銷承壓前行,出口高速換擋
11
黃仁勛再訪北京,釋放繼續(xù)與中國合作積極信號
12
AI改變顯示產業(yè):不止于“看得見”
13
政策利好驅動,2025年“國補”以舊換新助力家電行業(yè)持續(xù)回升
14
政策紅利下的中國凈水機會幾何
15
昔日“彩電大王”康佳陷絕境:誰能力挽狂瀾?
16
相冊重磅升級!華為Mate 70/Pura 70等推送HarmonyOS NEXT 5.0.0.155
17
高通最強Soc!驍龍8 Elite領先版首次現身:榮耀GT Pro全球首發(fā)
18
vivo Pad5 Pro 和 Pad SE 全規(guī)格曝光
19
彩電行業(yè)2024成績單出爐,幾家歡喜幾家愁?
20
2025年3月家電市場總結(線下篇)
關于我們

微信掃一掃,加關注

商務合作
  • QQ:61149512