Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
者 | 王啟隆
責編 | 唐小引
北京時間 2 月 22 日,半導體巨頭 Arm 更新了 Arm? Neoverse? 產(chǎn)品路線圖,宣布推出兩款基于全新第三代 Neoverse IP 構(gòu)建的全新計算子系統(tǒng)(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
Arm Neoverse CSS V3 是首款高性能 V 系列 CSS 產(chǎn)品,與前代產(chǎn)品 CSS N2 相比,單芯片性能提升可達 50%。
Arm Neoverse CSS N3 是 N 系列 CSS 產(chǎn)品的最新拓展,相較于 CSS N2,其每瓦性能提升了 20%。
Arm 高級副總裁兼基礎設施事業(yè)部總經(jīng)理 Mohamed Awad 指出:“Arm 構(gòu)建了全球應用最為普及的 CPU 架構(gòu),在多個領域的技術(shù)革新中發(fā)揮主導作用,尤其在智能手機產(chǎn)業(yè)中占據(jù)核心地位。隨著 AI 滲透到教育、就業(yè)、制造、醫(yī)療和交通等領域,AI 正在改變經(jīng)濟發(fā)展和我們的日常生活,而 Arm 是這一切變革的基石?!?/span>
Arm? Neoverse? 這條產(chǎn)品線是 Arm 專為基礎設施應用市場設計,進入 AI 時代之后,其應用范圍從最初的應用服務器和數(shù)據(jù)中心拓展到了網(wǎng)絡、安全和存儲等諸多領域,在整個基礎設施領域發(fā)揮著關鍵作用。
在如今 OpenAI 強勢領銜,NVIDIA 叱咤風云的這段 AI 加速增長期,我們可以通過解讀此次產(chǎn)品路線圖的更新,一覽 Arm 這位“老大哥”對計算技術(shù)界的未來布局。
這是一種非常緊密的合作關系。尤其是在 Arm 推出了 Neoverse CSS 之后,定制芯片變得更迅速,且更易實現(xiàn)。微軟的 Cobalt 100 CPU 就是一個經(jīng)典的合作案例。從頭部云服務提供商到初創(chuàng)公司,Neoverse CSS 被廣泛應用來推動更高的創(chuàng)新發(fā)展。
不難想象,這構(gòu)成了一個極其強大的生態(tài)系統(tǒng)。
去年十月,Arm 在Neoverse CSS 的基礎上,進一步推出了 Arm 全面設計 (Arm Total Design) 生態(tài)項目,集結(jié)了半導體產(chǎn)業(yè)中的芯片設計伙伴、IP 供應商、EDA 工具提供商、代工廠和固件開發(fā)商等各方力量,圍繞 Arm 計算子系統(tǒng)(CSS)開展協(xié)同創(chuàng)新和系統(tǒng)開發(fā)工作。
通過路線圖的協(xié)同和技術(shù)整合,Arm 還設立了專業(yè)技術(shù)中心來縮短上市時間并降低成本,助力合作伙伴更高效地開發(fā)基于 Neoverse CSS 的定制芯片。
在計算機發(fā)展的早期,IBM 壟斷了大型機市場,擁有自己獨特的硬件和軟件體系結(jié)構(gòu)。然而,一些公司(Amdahl、Fujitsu 和 Hitachi)決定挑戰(zhàn) IBM,試圖制造與其大型機兼容的計算機。最終 IBM 通過保持技術(shù)領先和市場份額,還是成功抵御了這些競爭者的挑戰(zhàn)。這就是所謂的“大型機克隆戰(zhàn)爭”。
在這個 AI 時代,比起掀起新一輪的硬件戰(zhàn)爭,Arm 選擇帶頭團結(jié)這些力量,立志使人工智能變得無處不在,并在網(wǎng)絡安全領域為從芯片到云端的數(shù)字世界奠定信任的根基。
其中也包括我們熟知的頭部企業(yè),如臺積電、Intel 和三星。還有開發(fā)者們耳熟能詳?shù)?/span>云原生計算基金會(CNCF)畢業(yè)項目,也原生支持 Arm 架構(gòu)。
目前,在短短四個月內(nèi)已有超過 20 家企業(yè)加入 Arm 全面設計項目,涵蓋新的 EDA 和配套 IP 提供商,以及來自韓國、中國臺灣、中國大陸和印度等具有巨大發(fā)展?jié)摿Φ膽?zhàn)略市場的芯片設計公司。他們均致力于確保高性能、高效率解決方案的廣泛可觸及性,助力滿足 AI 加速未來的計算需求。
此外,基于 Arm 全面設計生態(tài)伙伴的反饋意見,Arm 近期還發(fā)布了芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA)。其旨在定義一個功能強大、支持通用的芯粒生態(tài)系統(tǒng)。
在過去的一年里,Arm 發(fā)現(xiàn)了不少市場空缺,于是為了提供滿足基礎設施性能要求的高效計算,他們推出了 N 系列的最新 CSS 產(chǎn)品——Neoverse CSS N3。CSS N3 的首個實例可提供 32 核心,擁有卓越的能效表現(xiàn),其熱設計功耗(TDP)低至 40 瓦特。
基于最新的 Neoverse N3 IP 平臺構(gòu)建的 CSS N3,不僅引入了 Armv9.2 架構(gòu)特性,還在每個核心上配備了高達 2 MB的專用二級緩存(L2),同時兼容并支持當前最前沿的 PCIe 和 CXL I/O 接口標準,以及統(tǒng)一芯片互連(UCIe)的芯粒互聯(lián)規(guī)范。
也有些廠商希望在保有 CSS 所有優(yōu)勢的同時,實現(xiàn)更高的性能。因此,Arm 便將 CSS 引入到了高性能的 V 系列,推出了 Neoverse CSS V3。
CSS V3 在單芯片上最多可擴展至 128 核,并支持最新的高速內(nèi)存和 I/O 標準。CSS V3 基于最新的 Neoverse V3 核心打造,是 Arm 目前單線程性能最高的 Neoverse 核心。V3 為 Arm 機密計算架構(gòu) (CCA) 提供硬件支持。V3 和 N3 核心均可提供業(yè)界領先的專用 L2 緩存大小,顯著改善性能表現(xiàn)。
既然 CSS V3 主打性能,那它在關鍵工作負載下又能達到什么水平?Arm 提供了如下兩張數(shù)據(jù)圖,并強調(diào)了一個有意思的點:代際產(chǎn)品之間的性能提升。Arm 的一大優(yōu)勢就是使合作伙伴可以不受制于技術(shù)供應商,而是自己掌握創(chuàng)新的步伐,所以更新迭代的速度特別快。
此外,常有人忽視一枚芯片有多少計算周期最終被用于壓縮和協(xié)議轉(zhuǎn)換等后臺任務。N 系列在壓縮方面取得了性能優(yōu)勢,可降低云服務運營商的成本,并最終降低云服務客戶的成本。同樣地,V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項關鍵功能。
光說數(shù)據(jù)會沒什么實感,所以 Arm 也提供了實例。
如今,XGBoost 機器學習算法基本上滲透到所有依賴預測和個性化服務的領域,如內(nèi)容推薦、出行費用預估及旅行優(yōu)惠推送等日常應用場景??梢哉f,我們現(xiàn)在隨便打開一個網(wǎng)頁所看到的個性化內(nèi)容,均使用 XGBoost 作為主要數(shù)據(jù)庫來驅(qū)動相關核心算法。
所以,這種以工作負載為重點的協(xié)作就能最好地體現(xiàn)生活中的實際應用場景。Arm 針對特定關鍵工作負載的優(yōu)化,讓 N3 平臺的 XGBoost 性能飆升至原來的 196%,而且這還是在已經(jīng)超越同類廠商的工作負載上進行的結(jié)果。
去年,有關 AI 的討論焦點主要集中在生成式 AI 和大語言模型 (LLM) 上,行業(yè)重點都是如何訓練更厲害的大模型。但根據(jù) Arm 的分析,隨著生成式 AI 廣泛應用于實際業(yè)務場景,其工作重點將轉(zhuǎn)向推理。
分析師估計,已部署的 AI 服務器中有高達 80% 專用于推理,且這一數(shù)字還將持續(xù)攀升。這一轉(zhuǎn)變意味著要找到合適的模型和模型配置,并加以訓練,然后將其部署到更具成本效益的計算基礎設施上。
CPU 廣泛可用,并可靈活用于機器學習或其他工作負載,此外, CPU 還易于部署,并可支持各種軟件框架,具備低成本和高能效等優(yōu)勢。因此,CPU 推理將是生成式 AI 計算應用的關鍵組成。
但是,并非所有 AI 處理都將在 CPU 上進行,現(xiàn)在風頭正盛的 AI 硬件商不是 NVIDIA 嗎?事實上,NVIDIA 不僅利用其領先的 Hopper GPU,同時也使用了基于 Neoverse V2 平臺的緊耦合計算芯粒 Grace。這種緊耦合的 CPU 加上加速器配置,對大參數(shù) LLM 非常有益,對檢索-增強-生成 (RAG) 等新興方法也很有幫助。
可以見得,Arm 已經(jīng)通過這次發(fā)布解釋了自己為什么是未來計算及 AI 的基石。
建設 AI 時代也離不開廣大開發(fā)者的努力,Arm 在生成式 AI 時代又該如何賦能開發(fā)者?Arm 基礎設施事業(yè)部營銷副總裁 Eddie Ramirez 向 CSDN 回答了這點:
我們致力于實現(xiàn)讓 AI 應用開發(fā)者可以輕松部署的 AI 軟件棧。針對中國開發(fā)者,我們與龍蜥社區(qū)緊密合作。通過提供 Arm Compute Library (ACL, Arm 計算庫),為 AI 應用中所使用的許多算法的實現(xiàn)提供出色的支持。Arm 對 TensorFlow、PyTorch 等 AI 框架的支持,加之我們的加速計算庫,兩者將緊密集成,并納入未來的龍蜥社區(qū)版。
頭條創(chuàng)作挑戰(zhàn)賽#Arm,“CSS for Client”,總結(jié)了最新的 CPU 和 GPU - 針對 AI 進行了優(yōu)化,GitHub 上的庫
5 月 30 日,軟銀集團旗下英國子公司 Arm 的日本子公司 Arm 宣布推出由最新 CPU 和 GPU 組成的 AI “Arm Compute Subsystems (CSS) for Client”,以及用于開發(fā)的庫“Arm Kleidi”。
為旗艦手機打包最新的 CPU 和 GPU
Arm CSS for Client 由最新的 Corelink 系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元 (SMMU) 組成。 基于 Armv9 的最新 Arm Cortex-X925 CPU 和 Arm Immortalis-G925 GPU 針對 CPU 和 GPU 的 3 納米 (nm) 制造工藝進行了優(yōu)化,并安裝了 Arm Cortex-A725 和 Arm Cortex-A520。
通過為旗艦移動設備 SoC 提供底層計算元件,半導體合作伙伴可以更輕松、更快速地構(gòu)建基于 Arm 的解決方案,并更快地將產(chǎn)品推向市場。
Cortex-X925 是 CSS for Client 的核心 CPU,是 Arm 基于 Armv9.2 架構(gòu)的最強大、最高效、最通用的 CPU 集群,可提供最高的性能和能效。
假設時鐘頻率為 3.8GHz,最大緩存大小,與 2023 年智能手機中的旗艦 4nm SoC 相比,它的單線程性能提高了 36%。 AI 性能提高了 41%,顯著提高了生成式 AI 在大型語言模型 (LLM) 等設備上的響應能力。
另一方面,Cortex-A725 是一款同樣基于 Armv9.2 架構(gòu)的新 CPU,可將 AI 和移動游戲用例的性能效率提高 35%。 Arm DSU-120 由新的 Cortex-A520 CPU 支持,可提高電源效率和可擴展性。
另一個核心GPU Immortalis-G925將取代Immortalis-G720。 它可以將電源效率提高多達 37%,并將 AI 推理速度提高 34%。
Arm 應用技術(shù)部總監(jiān) Rishi Nakajima 表示:“傳統(tǒng) Arm 提供的 CPU 和 GPU 可以單獨物理實現(xiàn),但我們不是單獨優(yōu)化每個 CPU 和 GPU 的性能,而是準備了一個選項,可以作為 CPU + GPU 的單個子模塊進行整體優(yōu)化,并按原樣物理實現(xiàn)。
GitHub 上提供的開發(fā)庫
該公司還宣布了 Arm Kleidi,這是一個使用 Arm CPU 進行開發(fā)的庫。
它將在 Arm 的“GitHub”上發(fā)布,并將為支持 Arm 架構(gòu)關鍵功能(如 NEON、SVE2 和 SME2)的 AI 框架的開發(fā)人員準備一套計算內(nèi)核“KleidiAI”,以及用于 CV 的“KleidiCV”。
Nakajima先生解釋說,雖然配備NPU(神經(jīng)處理單元)的設備數(shù)量正在增加,NPU硬件和驅(qū)動程序的發(fā)展已經(jīng)跟不上AI應用程序的發(fā)展,開發(fā)人員被迫在CPU上優(yōu)化AI軟件。
Nakajima說:“在CPU端優(yōu)化AI軟件是一個非常重要的問題,[Arm Kleidi]并不是一個經(jīng)常被討論的技術(shù),但它是AI和CV應用程序開發(fā)人員輕松優(yōu)化處理的不錯選擇。
強調(diào)人工智能所需的能源效率
Arm 總裁兼首席執(zhí)行官橫山孝之表示,“Galaxy AI”運行在谷歌的 Gemini 上,以及 OPPO、Vivo 和小米等主要廠商的新專有 AI 功能,所有這些都在 Arm 上運行,但所有這些 AI 功能都需要巨大的功率。 能源效率對于實現(xiàn)更高性能的人工智能非常重要,這也是Arm的DNA,“他說,并強調(diào)了支持高性能計算的技術(shù)。
兩年,AI技術(shù)的熱潮不僅惠及了千行百業(yè),也顛覆了人們的生活。從云端百億、千億參數(shù)的大模型,到邊緣、終端的“小模型”,像vivo的藍心大模型BlueLM,可以在設備端提供寫作、繪畫等AIGC的能力,極大改善了用戶的使用體驗。這種潮流正在形成一種趨勢,生成式AI為手機、電腦、智能穿戴、家電等終端帶來了真正的智能進化,Arm則是這一切的基石。
“Arm為最大的計算生態(tài)系統(tǒng)提供了普適應用,以及對開發(fā)者友好的指令集,不斷滿足下一波的計算性能需求?!盇rm終端事業(yè)部產(chǎn)品管理副總裁James McNiven表示,“這意味著在設備端和云端都會有更高的性能,同時在某些情況下會需要更高的能耗驅(qū)動AI技術(shù),而能效正是Arm的DNA。Arm架構(gòu)的強大實力可以為計算平臺帶來最高效的性能。”
Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven
前不久,Arm推出了Arm終端計算子系統(tǒng)(CSS),為旗艦系統(tǒng)級芯片提供基礎計算要素,包括全新的Armv9.2 CPU、Arm Immortalis GPU、基于3納米工藝生產(chǎn)就緒的CPU和GPU物理實現(xiàn),以及最新的CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元(SMMU)。此外,Arm還通過新推出的Arm Kleidi軟件庫幫助軟件開發(fā)者無縫獲得Arm CPU的最佳性能。通常,Arm的大多數(shù)IP會通過RTL的形式交付,要使RTL變?yōu)樾酒€要借助EDA工具流,通過一系列的優(yōu)化和工具完成工具流后提供物理實現(xiàn)。此次Arm除了提供RTL形式的IP交付,還會額外為合作伙伴提供CPU和GPU的物理實現(xiàn)選項。
過去幾年中,專為性能和AI設計的Armv9架構(gòu)在矢量加速、機器學習、安全性、穩(wěn)定性等方面有著顯著提升,在Armv9.2的基礎上,Arm通過新一代Arm Cortex-X CPU和Immortalis GPU帶來了更高的性能,并以效率為核心,融入了Arm終端CSS的全新能力,加速產(chǎn)品上市進程。Arm終端CSS可讓IPC性能同比提高36%,AI推理速度提高59%,ArmImmortalis GPU圖形性能提高37%。Arm深知,CPU、GPU、NPU等異構(gòu)計算的重要性,不同加速器之間的協(xié)同可以滿足各類應用場景,為客戶帶來更多的選擇。例如,Immortalis GPU在持續(xù)推進智能手機中的光線追蹤技術(shù)普及。在可擴展性方面,三種不同的 CPU 微架構(gòu)讓Arm的合作伙伴能夠在包括筆記本電腦、智能手機、數(shù)字電視和可穿戴設備等一系列設備上提供對應的性能、效率,以及CPU和GPU解決方案。
Arm Cortex-X925實現(xiàn)了Cortex-X系列推出以來最高的同比性能提升,在3.8GHz的時鐘速率和最大緩存大小的條件下,與2023年旗艦智能手機的4納米SoC相比,其單線程性能大幅提高36%,AI性能相較去年的Cortex-XCPU在Token首次響應時間上提高41%,顯著增強了LLM等在設備端的響應能力。微架構(gòu)的演進帶來了最寬的解碼和矢量設計大幅提升,TOPS數(shù)增長50%。通過更好的可配置性和更大的私有L2緩存,可以保留進出過CPU的指令和數(shù)據(jù)。Arm Immortalis-G925 GPU在多個AI和ML網(wǎng)絡上提升了34%的性能,并把光線追蹤技術(shù)在面對復雜物體時的表現(xiàn),在性能上提升了52%。
效率方面,Arm會選擇不同的CPU微架構(gòu)實現(xiàn)最大性能和最長使用天數(shù),通過Immortalis和Arm Mali提供GPU可擴展性,實現(xiàn)性能和效率的靈活性。與Cortex-A720相比,Cortex-A725的能效提高了35%。Cortex-A520 CPU也隨著工藝和物理實現(xiàn)的提升得到了改進。圖形效率方面,在與去年的終端平臺相同水平的游戲性能下,《堡壘之夜》等手游的功耗降低了30%。在為Cortex-X925帶來的30%性能提升的基礎上,Arm對網(wǎng)頁瀏覽器也進行了改進,使其性能提高23%。
Arm繼續(xù)攜手Google,推動了安卓動態(tài)性能框架(Android Dynamic Performance Framework)的發(fā)展。在最新版本的框架中,高端內(nèi)容的每幀能耗降低25%,幀速率提高35%。此外,Arm還調(diào)整了安卓工作負載在不同CPU核心之間的平衡方式,為YouTube節(jié)省了10%的功耗。針對Google的AV1視頻編解碼器,Arm進行了軟件優(yōu)化,使當下安卓設備的視頻性能最多可提高40%。
除此之外,Arm的內(nèi)存標記擴展(Memory Tagging Extension, MTE)可以幫助開發(fā)者在無需侵入式檢測的情況下查找和修復代碼中的錯誤,還可以在實際操作環(huán)境下,用來減少安全漏洞被利用。目前,vivo X100、vivo X100 Pro、Google Pixel 8等旗艦設備均允許用戶啟用MTE。
James McNiven稱:“對于Arm終端CSS的完整解決方案來說,我們會針對不同用例,或是某些測試基準設定目標,將其分解到單個IP中。以游戲《原神》為例,我們先從系統(tǒng)層面進行分析,然后針對GPU、CPU等設定提升的目標,將各類游戲機制和計算能力推向極限,每個單一IP的性能提升都會為終端CSS的整體性能添磚加瓦?!?/p>
為了幫助開發(fā)者更好地發(fā)揮Arm終端CSS的性能優(yōu)勢,Arm還推出了Arm Kleidi,包括面向AI工作負載的KleidiAI和面向計算機視覺應用的KleidiCV。KleidiAI是一套面向AI框架開發(fā)者的計算內(nèi)核,使他們能夠在各種設備上輕松獲得Arm CPU上的最佳性能,并支持Neon、SVE2和SME2等關鍵Arm架構(gòu)功能,顯著提升計算應用的性能。KleidiAI與PyTorch、Tensorflow、MediaPipe等熱門AI框架集成,旨在加速Meta Llama 3、Phi-3等關鍵模型的性能,并且可以前后兼容,確保Arm在引入更多技術(shù)時依然能適用未來市場的需求。值得一提的是,Kleidi一詞源于希臘語,意為“鑰匙”,即為開發(fā)者釋放更多性能的“鑰匙”。
KleidiAI支持可伸縮矢量擴展(Scalable Vector Extensions, SVE)、可伸縮矩陣擴展(Scalable Matrix Extensions, SME)等能力,部署在Cortex-X925上時,Kleidi技術(shù)運行Llama 3和Phi-3LLM的速度要比參考實現(xiàn)快2.9倍,24小時內(nèi)即可實現(xiàn)。KleidiCV則可以融入神經(jīng)網(wǎng)絡、傳統(tǒng)計算機視覺算法等技術(shù),確保社交媒體、攝像頭等應用流暢運行。Arm會與OpenCV.ai合作,幫助安卓開發(fā)者更便捷地將OpenCV納入他們的項目中,并從KleidiCV的改進中受益。
Arm在指令預取、分支預測、大緩存等前端訪存能力的持續(xù)投入,使得應用程序的性能大幅提升,vivo就是很大的受益者,Arm微架構(gòu)的升級讓vivo手機的流暢度達到非常高的水準。Arm終端CSS將為vivo的生成式AI應用提供了強勁的處理能力,也為開發(fā)者帶來了廣闊的發(fā)揮空間。vivo首席芯片規(guī)劃專家夏曉菲談到:“Arm作為整個產(chǎn)業(yè)鏈的最上游,我們希望把vivo產(chǎn)品的痛點和需求,對工作負載的分析以及產(chǎn)品性能功耗瓶頸的分析,反饋給Arm,使我們整個產(chǎn)業(yè)鏈能夠良性循環(huán)起來,從而使我們手機產(chǎn)品最終受益,給消費者帶來越來越好的體驗?!?
Arm終端事業(yè)部產(chǎn)品管理副總裁James McNiven(左)&vivo首席芯片規(guī)劃專家夏曉菲(右)
從AI手機到AI PC,Arm發(fā)展勢頭強勁。Windows on Arm(WoA)的生態(tài)愈發(fā)成熟,越來越多的Arm架構(gòu)機型和Arm原生應用持續(xù)涌現(xiàn),除了Microsoft Office、Dropbox、Zoom、Adobe套件等,還有百度、嗶哩嗶哩、Chrome瀏覽器、愛奇藝、搜狗、騰訊QQ音樂等帶來了豐富的體驗,Audacity、Blender和OBS Studio(用于流媒體)等開源工具的增多讓開發(fā)者有了更大的熱情,這些應用還整合了大量的開源庫和開發(fā)工具,面向Windows的Arm Performance Libraries(Arm性能庫)推動著WoA生態(tài)不斷發(fā)展。
可以說,通過與合作伙伴的深度協(xié)作,Arm的產(chǎn)品和技術(shù)正在全球的每一個角落推進著計算能力挑戰(zhàn)極限,讓AI技術(shù)惠及每一個人?!白鳛橛嬎愕幕?,Arm致力于通過新技術(shù)的推出,幫助我們的合作伙伴取得成功,我們希望能賦能合作伙伴打造出面向AI應用最卓越的設備、芯片組和SoC,為消費者的下一代AI體驗夯實根基。”James McNiven說。
(8775559)
*請認真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。