NVIDIA Blackwell架構(gòu)革新,神經(jīng)網(wǎng)絡(luò)著色器引領(lǐng)潮流
時間:2025-01-16 11:11:00
Blackwell 堪稱 NVIDIA 近年來在 GPU 架構(gòu)上改動幅度最大的一次,開創(chuàng)性地引入神經(jīng)網(wǎng)絡(luò)著色器,為游戲開創(chuàng)了更為先進、快速且逼真的渲染方式。
Blackwell 架構(gòu)的設(shè)計重點集中在四個方面:為全新神經(jīng)網(wǎng)絡(luò)運算進行優(yōu)化、減少內(nèi)存使用量、引入新型服務(wù)質(zhì)量功能以及提升能源利用效率。
從核心層面來看,Ada 架構(gòu)的 SM(Streaming Multiprocessor)內(nèi)的著色核心(即 CUDA 核心),其中一半可依需求動態(tài)調(diào)整處理 FP32(單精度浮點數(shù))和 INT32(32 位整數(shù)),另一半專門處理 FP32。
而 Blackwell SM 的著色核心則完全可依需求動態(tài)處理 FP32 和 INT32。
以往僅由著色核心處理著色工作負載的情況,如今在 Blackwell 架構(gòu)中有所改變,通過神經(jīng)網(wǎng)絡(luò)著色方式,讓該架構(gòu)所擁有的第 5 代 Tensor 核心參與分擔著色工作負載。
相較于 Ada 架構(gòu)的著色器執(zhí)行重新排序(Shader Execution Reordering, SER)主要針對光線追蹤工作負載的重新排序,Blackwell 架構(gòu)進一步針對神經(jīng)網(wǎng)絡(luò)著色工作負載進行排序。
將較為傳統(tǒng)的著色工作分配給 CUDA 核心,需要運用神經(jīng)網(wǎng)絡(luò)運算的工作負載安排給 Tensor 核心,且兩種核心能夠同時運行,使整體效率提高至 2 倍。
第 5 代 Tensor 核心支持 FP4 精度模型的加速處理,相較于 Ada 架構(gòu)第 4 代 Tensor 核心支持的 FP8 精度模型,其資料吞吐量可達 2 倍,相當于 Pascal 核心吞吐量的 32 倍,從而能夠滿足 DLSS 4 的多畫格生成技術(shù)。
此外,相較于 Ada 架構(gòu)的第 3 代光線追蹤核心,Blackwell 架構(gòu)的第 4 代光線追蹤核心維持 Box Intersection Engine、Opacity Micromap Engine 等特性。

發(fā)布作者