在佐治亞州亞特蘭大舉行的 SC24 大會上,SK hynix正在展示其面向 AI 和 HPC 的高級內存解決方案。
自 1988 年以來,該年度活動由計算機協會和 IEEE 計算機學會組織,展示了 HPC、網絡、存儲和數據分析方面的最新發展。
SK海力士已連續第二年回歸,通過展示內存產品以及有關AI和HPC技術的深刻演講,鞏固了其在AI內存的領導地位。根據會議的“HPC Creates”主題(強調超級計算對各個行業的影響),該公司展示了其內存解決方案如何推動不同領域的進步。
展示適用于 AI 和 HPC 的高級內存解決方案
在其 展位上,該公司正在演示和展示一系列為 AI 和 HPC 量身定制的產品。正在演示的產品包括其 CMM(CXL (1) 內存模塊)-DDR5 (2)、AiMX (3) 加速卡和 Niagara 2.0 等。
CMM-DDR5 與采用至強 6 處理器的服務器平臺的現場演示展示了 CXL 內存技術如何在各種使用模式下加速 AI 工作負載。此外,展位的參觀者可以了解采用 EDSFF (4) 的最新 CMM-DDR5 產品,該產品在 TCO (5) 和性能方面都有所改進。
另一個現場演示是將 AiMX 集成在華擎機架式服務器中,以運行 Meta 的 Llama 3 70B,這是一個具有 700 億個參數的大型語言模型 (LLM)。該演示突出了 AiMX 在處理大型數據集方面的效率,同時實現了高性能和低功耗,解決了 LLM 中注意力層 (6) 帶來的計算負載挑戰。
正在演示的其他技術包括 Niagara 2.0。CXL 池內存解決方案支持數據共享,以最大限度地減少 AI 推理期間的 GPU 內存短缺 (7),使其適用于 LLM 模型。 該公司還展示了具有接近內存處理 (NMP) (8) 的 HBM ,它加速了 HPC 中常見的間接內存訪問 (9)。該解決方案由洛斯阿拉莫斯國家實驗室 (LANL) 開發,突出了基于 NMP 的 HBM 在推動下一代技術方面的潛力。
另一個演示展示了 SK 海力士更新的 OCS (10) 解決方案,與 SC23 上展示的迭代相比,該解決方案在實際 HPC 工作負載的分析性能方面有了顯著改進。OCS 與 LANL 共同開發,通過使存儲能夠獨立分析數據、減少不必要的數據移動并提高資源效率,解決了傳統 HPC 系統中的性能問題。此外,該公司還演示了一個檢查點卸載 SSD (11) 原型,該原型通過提高性能和可擴展性來提高 LLM 訓練資源的利用率。
除了進行產品演示外,SK海力士還展示了強大的數據中心解決方案陣容,包括HBM3E(12)。5th–Gen HBM 提供高速數據處理、最佳散熱和高容量,使其成為 AI 應用必不可少的。除了 HBM3E 之外,該公司還有 Rapid DDR5 RDIMM 和 MCR DIMM 產品,這些產品專為高性能服務器中的 AI 計算量身定制。包括第 5 代 PS1010 和 PEB110 在內的企業級 SSD (eSSD) 也在展會上展出。這些 SSD 解決方案提供超快的 RW 速度,對于在大規模環境中加速 AI 訓練和推理至關重要。
通過專家演講突出記憶的潛力
Jongryool Kim 介紹 HPC 和 AI 系統的內存和存儲方面的進步
在會議期間,人工智能系統基礎設施研究總監Jongryool Kim發表了題為“內存和存儲:HPC/AI的力量”的演講,強調了HPC和AI系統的內存需求。他專注于 2 項關鍵進步,包括使用 CXL、HBM 和 SSD 的近數據處理技術來提高性能,以及 CXL 池內存以實現更好的系統數據共享。
Jeoungahn Park 在 OCS 上發表演講
可持續計算團隊的技術負責人 Jeoungahn Park 也上臺發表了題為“利用開放標準化 OCS 促進 HPC 數據分析”的演講。Park 解釋了 OCS 如何使存儲能夠自動識別和分析數據,從而加速 HPC 中的數據分析。他添加了 OCS 如何提高資源效率并與現有分析系統集成,以及如何在實際 HPC 應用程序中驗證其分析性能。
在 SC24 上,SK 海力士鞏固了其作為內存解決方案先驅的地位,這些解決方案正在推動 AI 和 HPC 技術的創新。展望未來,該公司將在合作伙伴的支持下繼續突破技術界限,以塑造 AI 和 HPC 的未來。
(1) Compute Express Link (CXL)高性能計算系統所基于的基于 PCIe 的下一代互連協議。
(2) CXL 內存模塊 - DDR5 (CMM-DDR5):利用 CXL 技術的下一代 DDR5 內存模塊,可提高 AI、云和高性能計算的帶寬和性能。
(3) 基于內存中加速器的加速器 (AiMX):SK 海力士為使用 GDDR6-AiM 芯片的大型語言模型處理量身定制的專用加速卡。
(4) 企業和數據中心標準外形規格 (EDSFF):專門用于數據中心服務器的 SSD 外形規格的集合。
(5) 總擁有成本 (TCO):購置、運營和維護資產的全部成本,包括購買、能源和維護費用。
(6)注意層一種使模型能夠評估輸入數據的相關性,優先考慮更重要信息進行處理的機制。
(7)AI 推理:使用經過訓練的 AI 模型分析實時數據以進行預測或任務完成的過程。
(8) 近內存處理 (NMP):一種在數據存儲附近執行計算的技術,可減少延遲并提高 AI 和 HPC 等高帶寬任務的性能。
(9) 間接內存訪問一種計算尋址方法,其中一條指令提供內存位置的地址,其中包含所需數據或指令的實際地址。
(10) 基于對象的計算存儲 (OCS)一種在存儲系統中集成計算的存儲架構,支持本地數據處理并最大限度地減少移動以提高分析效率。
(11) Checkpoint 卸載 SSD:在 AI 訓練期間存儲中間數據的存儲解決方案,提高效率并縮短訓練時間。
(12) HBM3E:第 5 代高帶寬內存 (HBM),一種高價值、高性能的產品,通過將多個 DRAM 芯片與硅通孔 (TSV) 連接,徹底改變了數據處理速度。