Apple M5 晶片:快取與張量架構的技術演進

Apple-M5-chip-251015

M5 晶片的推出,代表 Apple 矽晶片近年來最大的變革之一。搭載 M5 晶片的 iPad Pro 與 MacBook Pro 仍分別維持在其產品類別中的高階定位。iPad Pro 自 2018 年以來持續占據高階平板市場,而 MacBook Pro 自 2021 年起,在高價位筆記型電腦中保持領先表現。相較於產品線更新,M5 晶片本身更值得注意,特別是在 CPU、GPU 與快取架構上的調整。

CPU 中央處理器

M5 CPU 在 IPC(每時脈週期執行指令數)的提升相當顯著。在最高時脈頻率下,其 IPC 提升約為 10%;若以單核心效能衡量,提升幅度約為 15%。主要原因之一,是效能核心最高時脈提升至 4.6GHz。

在 Geekbench 6.5 中,M5 的單核心分數約為 4300 分,相較之下,M4 約為 3800 分。以每 GHz 效能分數計算,M4 約為 872.8,而 M5 提升至 950.3。

在特定工作負載中,效能提升更為顯著,包括物件移除(+28%)、背景模糊(+23%)與運動回復結構(+22%)。這類工作對記憶體延遲與向量吞吐量相當敏感,因此更大的快取容量與記憶體頻寬,對效能提升具有直接影響。此外,Arm 的 SME(Scalable Matrix Extensions)作為 CPU 核心內的矩陣運算加速機制,也可能在相關負載中發揮輔助作用。

多核心效能方面,M5 在 Geekbench 的成績為 18,086 分,而 M4 為 14,546 分,增幅接近 25%。這一提升幅度遠超過單純的 IPC 提升和時脈提高所能達到的程度,意味著 M5 的多核心效能擴展亦有所改進,推測與快取配置與前端頻寬加寬有關。

整體而言,M5 CPU 的效能水準已接近先前的 M1 Ultra。

GPU

在 M5 架構中,GPU 是升級幅度最大的組件,最早隨 A19 系列晶片導入,並延伸至 M5 平台。

新一代 GPU 包含第三代光線追蹤引擎、新的著色器核心,以及神經網路加速器。這些神經網路加速器在功能定位上,與 Nvidia 的 Tensor Core 類似,特別針對矩陣乘法進行最佳化。

所有人工智慧模型,無論類型如何,最終都會被打包成矩陣。例如 Qwen3 1.7B 模型大多數層為 2048×2048 矩陣。這有兩種運算方式:向量核心或矩陣核心。

向量運算方式會將矩陣拆解為大量點積計算,需反覆從記憶體載入資料,會浪費頻寬與時間,每個 GPU 核心可以同時計算多個這樣的矩陣,因此核心越多,速度就越快,但會受到記憶體頻寬的限制。相對地,矩陣運算方式可將矩陣分割為小型方陣(如 32×32 或 64×64),每個 GPU 核心將這些方陣相乘,在晶片內部重複利用資料,降低記憶體存取次數,並可並行處理。

在 M5 等級的晶片中,每個 GPU 核心皆配置專用神經網路加速器。根據測試結果,在 LLM 的密集運算部分,如預填(pre-fill)階段 – 即產生第一個標記期間的處理流程 – 運算速度可提升 4 倍; 解碼(decode)階段的效能提升則主要受益於 SoC 記憶體頻寬的改善。

Benchmark M5 Prefill (Without Neural Accelerators) M5 Decode (Without Neural Accelerators) M5 Prefill (With Neural Accelerators) M5 Decode (With Neural Accelerators) M5 Neural Accelerator Speedup
Qwen3 8B 19121 tokens 158.2 tok/s 8.2 tok/s 578.7 tok/s 8.65 tok/s 3.65x speedup
Qwen3 8B 32008 tokens 153.5 tok/s 5.7 tok/s 453.3 tok/s 5.8 tok/s 2.95x speedup

目前 MLX 尚未完整支援神經加速器,但已提供初步功能。待後續更新完成後,效能提升幅度有望達到上述水準。

Benchmark M4 Prefill (tokens per second) M4 Decode M4 Prefill (tokens per second) M5 Prefill M4 Prefill (tokens per second) M5 Decode M4 Prefill (tokens per second) M4 > M5 Performance Boost Prefill M4 > M5 Performance Boost Decode
Qwen3 1.7 | 512/128 1601.2 75 1617 108.7 0.98% 31.00%
Qwen3 1.7 | 1024/128 3264.7 80.3 3442.9 101.9 5.18% 21.20%
Qwen3 1.7 | 1024/512 3269.1 73.9 3429.7 101.2 4.68% 26.98%
Qwen3 1.7 | 2048/128 6560.4 74.1 6968 91.6 5.85% 19.10%
Qwen3 1.7 | 2048/512 6565.3 73.9 6969.3 93.5 5.80% 20.96%
Qwen3 1.7 | 1024/1024 3273.3 78.6 3442.2 97.3 4.91% 19.22%
Qwen3 1.7 | 4096/128 12949.6 64 13942.4 77.8 7.12% 17.74%
Qwen3 1.7 | 4096/512 12948.5 61.1 13926.9 73.3 7.03% 16.64%
Qwen3 1.7 | 8192/512 24429.2 41.4 26897.5 52.7 9.18% 21.44%

遊戲表現也有相當大的提升。就目前而言,GPU 的 AI 效能提升最為引人注目。這只是個開始,未來將有更多 AI 應用支持神經網路加速器。

Cache 快取

快取架構是 Apple 提升效能與能源效率的秘訣。CPU 在執行運算時需存取記憶體,而系統中主要存在兩種記憶體類型:DRAM 與 SRAM。

DRAM 用於統一記憶體(Unified Memory),也就是我們常見的 LPDDR 或 DDR。而 SRAM 則用於各級快取,包括 L1、L2、L3 與 SLC(System Level Cache)。SRAM 密度低、很佔空間,通常被整合到 SoC,以 L1/L2/L3 cache 和 SLC 的形式存在。

當 CPU 處理資料時,會先從主記憶體(DRAM)載入資料,並將其暫存在快取(SRAM)中進行運算。將資料從 DRAM 搬移到 SRAM 的過程非常耗能,通常每次 DRAM 讀取需要數百皮焦耳(pJ)。相較之下,讀取並使用 SRAM 的能耗通常僅為個位數皮焦耳。增加快取容量能有效降低對 DRAM 的存取頻率,進而降低整體能耗。

在 A19 Pro 與 M5 中,Apple 大幅增加了 SoC 內的快取配置,包括每個 CPU 叢集更大的 L2 快取,以及覆蓋整個 SoC 的系統層級快取(SLC)。這帶來兩大優勢:一是 CPU 的P-core(Performance-core)效能提升,二是 E-core(Efficient-core)在 Apple 設計下維持同樣低能耗但拉高效能。

總結

整體來看,M5 延續了 Apple Silicon 在效能提升與能源效率優化上的設計方向。透過 CPU 架構改進、GPU 導入矩陣加速單元,以及顯著增加快取容量,M5 在多種計算負載中展現出更高的效能密度。

在 AI 工作負載逐漸受到功耗與部署環境限制的趨勢下,這類以效率為核心的架構選擇,將對本地運算、邊緣 AI 與私有雲運算產生長期影響。M5 的設計方向,也反映出 Apple 在未來運算平台上的整體策略取向。

遊戲表現也有相當大的提升。就目前而言,GPU 的 AI 效能提升最為引人注目。這只是個開始,未來將有更多 AI 應用支持神經網路加速器。