Apple M5 晶片:快取與張量架構的技術演進
M5 晶片的推出,代表 Apple 矽晶片近年來最大的變革之一。搭載 M5 晶片的 iPad Pro 與 MacBook Pro 仍分別維持在其產品類別中的高階定位。iPad Pro 自 2018 年以來持續占據高階平板市場,而 MacBook Pro 自 2021 年起,在高價位筆記型電腦中保持領先表現。相較於產品線更新,M5 晶片本身更值得注意,特別是在 CPU、GPU 與快取架構上的調整。
CPU 中央處理器
M5 CPU 在 IPC(每時脈週期執行指令數)的提升相當顯著。在最高時脈頻率下,其 IPC 提升約為 10%;若以單核心效能衡量,提升幅度約為 15%。主要原因之一,是效能核心最高時脈提升至 4.6GHz。
在 Geekbench 6.5 中,M5 的單核心分數約為 4300 分,相較之下,M4 約為 3800 分。以每 GHz 效能分數計算,M4 約為 872.8,而 M5 提升至 950.3。
在特定工作負載中,效能提升更為顯著,包括物件移除(+28%)、背景模糊(+23%)與運動回復結構(+22%)。這類工作對記憶體延遲與向量吞吐量相當敏感,因此更大的快取容量與記憶體頻寬,對效能提升具有直接影響。此外,Arm 的 SME(Scalable Matrix Extensions)作為 CPU 核心內的矩陣運算加速機制,也可能在相關負載中發揮輔助作用。
多核心效能方面,M5 在 Geekbench 的成績為 18,086 分,而 M4 為 14,546 分,增幅接近 25%。這一提升幅度遠超過單純的 IPC 提升和時脈提高所能達到的程度,意味著 M5 的多核心效能擴展亦有所改進,推測與快取配置與前端頻寬加寬有關。
整體而言,M5 CPU 的效能水準已接近先前的 M1 Ultra。
GPU
在 M5 架構中,GPU 是升級幅度最大的組件,最早隨 A19 系列晶片導入,並延伸至 M5 平台。
新一代 GPU 包含第三代光線追蹤引擎、新的著色器核心,以及神經網路加速器。這些神經網路加速器在功能定位上,與 Nvidia 的 Tensor Core 類似,特別針對矩陣乘法進行最佳化。
所有人工智慧模型,無論類型如何,最終都會被打包成矩陣。例如 Qwen3 1.7B 模型大多數層為 2048×2048 矩陣。這有兩種運算方式:向量核心或矩陣核心。
向量運算方式會將矩陣拆解為大量點積計算,需反覆從記憶體載入資料,會浪費頻寬與時間,每個 GPU 核心可以同時計算多個這樣的矩陣,因此核心越多,速度就越快,但會受到記憶體頻寬的限制。相對地,矩陣運算方式可將矩陣分割為小型方陣(如 32×32 或 64×64),每個 GPU 核心將這些方陣相乘,在晶片內部重複利用資料,降低記憶體存取次數,並可並行處理。
在 M5 等級的晶片中,每個 GPU 核心皆配置專用神經網路加速器。根據測試結果,在 LLM 的密集運算部分,如預填(pre-fill)階段 – 即產生第一個標記期間的處理流程 – 運算速度可提升 4 倍; 解碼(decode)階段的效能提升則主要受益於 SoC 記憶體頻寬的改善。
| Benchmark | M5 Prefill (Without Neural Accelerators) | M5 Decode (Without Neural Accelerators) | M5 Prefill (With Neural Accelerators) | M5 Decode (With Neural Accelerators) | M5 Neural Accelerator Speedup |
| Qwen3 8B 19121 tokens | 158.2 tok/s | 8.2 tok/s | 578.7 tok/s | 8.65 tok/s | 3.65x speedup |
| Qwen3 8B 32008 tokens | 153.5 tok/s | 5.7 tok/s | 453.3 tok/s | 5.8 tok/s | 2.95x speedup |
目前 MLX 尚未完整支援神經加速器,但已提供初步功能。待後續更新完成後,效能提升幅度有望達到上述水準。
| Benchmark | M4 Prefill (tokens per second) | M4 Decode M4 Prefill (tokens per second) | M5 Prefill M4 Prefill (tokens per second) | M5 Decode M4 Prefill (tokens per second) | M4 > M5 Performance Boost Prefill | M4 > M5 Performance Boost Decode |
| Qwen3 1.7 | 512/128 | 1601.2 | 75 | 1617 | 108.7 | 0.98% | 31.00% |
| Qwen3 1.7 | 1024/128 | 3264.7 | 80.3 | 3442.9 | 101.9 | 5.18% | 21.20% |
| Qwen3 1.7 | 1024/512 | 3269.1 | 73.9 | 3429.7 | 101.2 | 4.68% | 26.98% |
| Qwen3 1.7 | 2048/128 | 6560.4 | 74.1 | 6968 | 91.6 | 5.85% | 19.10% |
| Qwen3 1.7 | 2048/512 | 6565.3 | 73.9 | 6969.3 | 93.5 | 5.80% | 20.96% |
| Qwen3 1.7 | 1024/1024 | 3273.3 | 78.6 | 3442.2 | 97.3 | 4.91% | 19.22% |
| Qwen3 1.7 | 4096/128 | 12949.6 | 64 | 13942.4 | 77.8 | 7.12% | 17.74% |
| Qwen3 1.7 | 4096/512 | 12948.5 | 61.1 | 13926.9 | 73.3 | 7.03% | 16.64% |
| Qwen3 1.7 | 8192/512 | 24429.2 | 41.4 | 26897.5 | 52.7 | 9.18% | 21.44% |
遊戲表現也有相當大的提升。就目前而言,GPU 的 AI 效能提升最為引人注目。這只是個開始,未來將有更多 AI 應用支持神經網路加速器。
Cache 快取
快取架構是 Apple 提升效能與能源效率的秘訣。CPU 在執行運算時需存取記憶體,而系統中主要存在兩種記憶體類型:DRAM 與 SRAM。
DRAM 用於統一記憶體(Unified Memory),也就是我們常見的 LPDDR 或 DDR。而 SRAM 則用於各級快取,包括 L1、L2、L3 與 SLC(System Level Cache)。SRAM 密度低、很佔空間,通常被整合到 SoC,以 L1/L2/L3 cache 和 SLC 的形式存在。
當 CPU 處理資料時,會先從主記憶體(DRAM)載入資料,並將其暫存在快取(SRAM)中進行運算。將資料從 DRAM 搬移到 SRAM 的過程非常耗能,通常每次 DRAM 讀取需要數百皮焦耳(pJ)。相較之下,讀取並使用 SRAM 的能耗通常僅為個位數皮焦耳。增加快取容量能有效降低對 DRAM 的存取頻率,進而降低整體能耗。
在 A19 Pro 與 M5 中,Apple 大幅增加了 SoC 內的快取配置,包括每個 CPU 叢集更大的 L2 快取,以及覆蓋整個 SoC 的系統層級快取(SLC)。這帶來兩大優勢:一是 CPU 的P-core(Performance-core)效能提升,二是 E-core(Efficient-core)在 Apple 設計下維持同樣低能耗但拉高效能。
總結
整體來看,M5 延續了 Apple Silicon 在效能提升與能源效率優化上的設計方向。透過 CPU 架構改進、GPU 導入矩陣加速單元,以及顯著增加快取容量,M5 在多種計算負載中展現出更高的效能密度。
在 AI 工作負載逐漸受到功耗與部署環境限制的趨勢下,這類以效率為核心的架構選擇,將對本地運算、邊緣 AI 與私有雲運算產生長期影響。M5 的設計方向,也反映出 Apple 在未來運算平台上的整體策略取向。
遊戲表現也有相當大的提升。就目前而言,GPU 的 AI 效能提升最為引人注目。這只是個開始,未來將有更多 AI 應用支持神經網路加速器。
