新皇诞生,显卡步入全面AI图形时代——NVIDIA GeForce RTX 5090 D首发评测

fjmyhfvclm2025-01-25  9

CES 2025展会上,NVIDIA黄仁勋身着闪亮的“鳄鱼皮衣”,不出意料地带来了全新Blackwell架构的GeForce RTX 50系GPU,并一口气公布了RTX 5090、RTX 5080、5070Ti和RTX 5070四个RTX 50系家族最新成员。这不只是宣告RTX 50系即将入市取代现有的RTX 40系GPU,更向全球玩家展示了NVIDIA推动传统图形市场彻底变革的决心——一场属于图形世界的AI变革已然来临。

进入全面AI化的图形时代:NVIDIA RTX 50系列Blackwell架构浅析

▲AI算力、神经网络渲染开始成为GPU和视觉计算最重要也是发展最快的部分。

▲Blackwell的设计目标,神经网络变得更为重要。

▲GeForce Blackwell神经网络渲染架构的特性一览。

Blackwell架构问世,我们对GPU计算的传统认识和定义正经历着深刻的变革。AI计算已经成为视觉计算核心的关键部分,利用AI生成的图像将在新一代应用中占据主导地位,并成为GPU性能的关键制约因素。

Blackwell架构和GB202 GPU浅析解读

Blackwell是NVIDIA新一代GPU的架构代号,其具体的产品芯片代号以“GB”作为前缀。其中顶级的芯片就是GB202。

▲GB202芯片微架构简图。

▲Blackwell的GPC结构简图。

▲Blackwell的SM架构简图,可见光线追踪单元发生了巨大变化。

RTX 50系列显卡中的GB202型号采用定制的TSMC 4nm 4N工艺。一个完整的GB202单元由12个GPC组成,每个GPC内含8个TPC,从而总计达到96个TPC。每个TPC进一步包含2个SM单元,因此整个单元总计拥有192个SM单元。除此之外,GB202示意图的两侧还配备了16个32位的GDDR 7内存控制器,共同构成了512位的GDDR 7内存规格。针对图形处理核心(GPC),除了包含8个纹理处理核心(TPC)之外,还整合了图形核心前端的1个光栅化引擎,以及后端的2个光栅化操作(ROP)分区。每个ROP分区内部含有8个ROP单元,因此总共配备了16个ROP单元。GB202内包含了128MB L2缓存,相比前代AD102的96MB提升了大约33%。

CUDA Core部分,现在已全面升级为全功能单元。在Blackwell架构的每个SM单元中,计算单元能够执行FP32或INT32计算任务,这种改变显著提升了INT32计算能力的上限,对于那些涉及大量INT计算的应用来说,在Blackwell架构上将获得更优的性能表现。

Blackwell的SM单元中,包含了128个CUDA核心,1个第四代RT core,4个第五代Tensor Core,以及4个纹理单元。此外,它还拥有一个512KB的寄存器和128KB的L1/共享缓存。另外,光线追踪单元现在是第四代,相比Ada的第三代,增加了1个单元。

完整的GB202相关的单元数据如下:

● 24576个CUDA核心

● 384个FP64核心

● 192个RT Core

● 768个Tensor Core

● 786个纹理单元

● 512bit GDDR7显存接口

GDDR7显存:PAM 3带来更高速率

GDDR6X显存实现了高达1TB/s的带宽,但显存带宽依旧是超大规模GPU计算的瓶颈之一。

▲GDDR7极大地缓解了Blackwell GPU显存带宽不足的问题。

▲相比前代产品,GDDR7带来了显著的性能提升。

为了进一步提高显存带宽,释放核心计算性能。在Blackwell以及RTX 50系列显卡上,NVIDIA选择了GDDR 7显存来进一步拓宽显存带宽。在RTX 5090上,在512bit显存位宽和28Gbps GDDR7显存的帮助下,显存带宽峰值来到了1.792TB/s,相比前代产品提升了70%。

神经网络着色器时代的来临

Blackwell改革视觉计算

Blackwell在整体架构上的改进核心的技术点在于引入了大量神经网络相关的技术,并对在光栅化道路上持续了至少20年的图形计算过程开始进行根本意义上的变革。

▲RTX Neural Materials(神经网络材质)的应用,以珠宝材质渲染为例。

▲RTX Neural Texture Compression(RTX神经网络纹理压缩)技术,NTC为神经网络压缩的结果,数据更少,质量更高。

▲RTX Neural Radiance Cache(RTX神经网络辐射缓存)可以大幅度节约类似场景的光线、阴影计算量,并提升质量。

▲RTX Skin(RTX表皮材质)借助于光线追踪技术,带来了非常高质量的半透明质感。

▲RTX Neural Faces(RTX神经网络面孔),强化了模拟的人脸部视觉呈现,避免“恐怖谷”效应的出现。

NVIDIA在Blackwell中引入了神经网络渲染,并公布部分目前比较成熟的应用了神经网络的着色器案例,包括RTX Neural Materials(神经网络材质)、RTX Neural Texture Compression(RTX神经网络纹理压缩)、RTX Neural Radiance Cache(RTX神经网络辐射缓存)、RTX Skin(RTX表皮材质)以及RTX Neural Faces(RTX神经网络面孔)等。这些技术的引入,表明了神经网络,即人工智能相关技术,有望在不久的将来深入并大幅改造现有的光栅化技术,引领视觉计算效能的革命性提升。这无疑是一个令人期待的未来,从Blackwell开始。

第五代Tensor Core

支持FP4和第二代FP8 Transformer

▲第五代Tensor Core的特点在于新增了针对FP4、FP6的支持以及第二代FP8 Transformer模型的支持。

在Blackwell中NVIDIA带来了第五代Tensor Core。第五代Tensor Core 的特点在于新增了针对FP4、FP6的支持以及第二代FP8 Transformer模型的支持。

第四代RT Core(光线追踪核心)

分组计算更高效,毛发计算更真实

▲第四代RT Core 带来了三个全新的功能。

▲RTX Mega Geometry使得光线追踪整体所需计算划分更为高效,大量重复计算不再进行。

目前,NVIDIA在其第四代光线追踪单元上仅保留了包围盒相交引擎和不透明微图检测两项功能。同时,对三角形相交引擎进行了升级,推出了更先进的三角形簇相交引擎。NVIDIA推出了RTX Mega Geometry (“几何巨块”)处理技术,该技术在处理几乎无限细分的三角形细节时,显著提升了光线追踪的效率。

DLSS 4:更强的模型、多帧生成

在Blackwell架构上,NVIDIA带来了全新进化的DLSS 4技术。DLSS 4技术在多个方面都进行了更新,其核心包括下列五个技术。

1. 全新的DLSS多帧生成技术

2. 增强的DLSS帧生成技术

3. 增强的DLSS光线重建技术

4. 增强的DLSS超分辨率技术

5. 增强的DLAA技术。

▲DLSS 4的多帧生成技术带来了更多的生成帧,光流加速场由AI计算完成。

▲DLSS 4在最极端条件下,利用AI生成了15/16的像素。

▲DLSS 4在帧率和画质上都带来了极佳的表现。

▲借助DLSS 4,RTX 5090可以满足4K@240Hz游戏的要求。

▲目前已经有75款游戏在RTX 50系显卡上市后就可以直接支持DLSS 4。

▲理论上,NVIDIA app可以凭借Override模式实现对DLSS 3游戏变身支持DLSS 4的全覆盖调节支持(需要RTX 50系GPU)。

▲除了多帧生成需要RTX 50系GPU支持之外,DLSS 4带来的多项强化技术系列功能不仅在Blackwell GPU上有用,也能惠及之前的RTX GPU产品。

DLSS多帧生成技术能够最多生成3帧图像,相较于以往的单帧生成方法,显著提升了游戏的帧率。通过结合显示重新排序等先进技术,DLSS多帧生成技术为玩家带来了更加流畅的游戏体验。DLSS 4帧生成采用了先进的新模型,相较于先前的模型,帧生成速度提升了40%,同时显存占用量减少了30%。此外,传统的光流处理器生成画面的方式已被AI生成画面的方式所取代,光流场的生成速度也得到了显著提升。这一进步离不开Blackwell第五代Tensor Core和第二代FP8 Transformer模型的强力支持。从实际应用的角度来看,原始帧与生成帧之间的整体画面变化微小。以1920x1080的原始渲染分辨率为基准,在大多数情况下,AI需要生成的像素数量通常不会超过画面的30%,整体计算量保持在较低水平,因此帧生成的难度相对较小。

DLSS 4技术中,只有多帧生成技术由RTX 50系列独享,考虑到RTX 50系列更强的AI算力以及更好的Tensor Core支持等,这也是合理的。DLSS帧生成可在RTX 50、40系显卡使用。DLSS光线重建、DLSS超分辨率以及DLAA等 在全系列RTX显卡均可用,亦可享受到全新模型架构带来的优势。

Reflex 2:极致最低延迟,AI帮你补画面

▲Reflex 2采用了AI技术补完画面,使得鼠标点击到画面显示的延迟降低至最低。

▲NVIDIA展示了Inpaint AI修补像素微小变化的过程。

随着Blackwell的发布,NVIDIA推出了更先进的Reflex 2技术。Reflex 2的巧妙之处在于,鼠标的指令不再通过CPU和GPU,也不再进入排序队列,在鼠标按下的一瞬间,系统将会直接根据鼠标位移和画面变化的度量,结合前一帧画面、深度数据以及色彩数据等,将鼠标位移造成的画面缺失通过AI技术补充出来(类似DLSS帧生成),再直接交给显示器显示,这样一来,除了AI计算补帧的时间外以及显示相关的时间,延迟在其他地方将不再存在。

媒体功能大幅度增强

支持YUV 4:2:2以及更多的编解码单元

媒体功能支持也是GPU需要提供重要功能。Blackwell在多媒体功能上有2个核心的改进:一是支持YUV 4:2:2,另一个是采用了第九代NVENC和第六代NVDEC,增强了媒体性能。

▲Blackwell在显示方面的新增功能一览。

▲Blackwell的第九代NVENC和第六代NVDEC画面质量上得到了加强。

Blackwell架构三款芯片

GB202、GB203和GB205

目前NVIDIA发布了三款使用Blackwell架构的、面向视觉计算的GPU产品,型号是GB202、GB203和GB205,对应的GPU产品分别是RTX 5090、RTX 5080和RTX 5070 Ti、RTX 5070。

RTX 5090不是GB202的完整体,进行了精简,只开启了GB202的11个GPC和170个SM单元,GB202原始状态拥有12个,因此RTX 5090只拥有21760个CUDA Core。

RTX 5080是GB203芯片的完整体,包含了11个GPC、42个TPC和84个SM单元,对应10752个CUDA Core。

RTX 5070 Ti依旧是GB203芯片,但是进行了精简,虽然依旧拥有11个GPC,但是只启用了35个TPC和70个SM单元,CUDA Core数量降低至8960个。

RTX 5070上,NVIDIA改用了更小一级的GB205芯片但是关闭了2个SM单元,其中包含5个GPC、24个TPC以及48个SM单元,CUDA Core更进一步缩减至6144个。

Blackwell GPU架构的深度解读,我们后续将在公众号上为大家详细献上,敬请关注。

作为首发先锋,NVIDIA GeForce RTX 5090 D不久前也来到了MC评测室,就让我们通过实际的体验评测,来一探Blackwell的究竟吧!

PS:由于GeForce RTX 5090 D并未发行Founders Edition,即所谓公版,我们拿到的是规格配置与指导配置相同的七彩虹iGame GeForce RTX 5090 D Advanced 32GB显卡。

iGame GeForce RTX 5090 D Advanced 32GB赏析

在进行具体测试之前,让我们先审视一下GeForce RTX 5090 D的规格配置。从技术参数分析,RTX 5090 D在直接面对的规格参数上与RTX 5090保持了高度的一致性。GeForce RTX 5090 D搭载了21760个Blackwell CUDA核心,同时配备了170个第四代RT Core和680个第五代Tensor Core。在SM单元配置方面,相较于前一代的对应产品RTX 4090 D,硬件规格有了显著的提升,增强了约50%。此外,GeForce RTX 5090 D在显存配置上采用了最新的GDDR7显存技术(前文已有详尽介绍),并且容量达到了惊人的32GB,显存带宽高达1.792TB/s,相较于配置了24GB GDDR6X显存、带宽为1.008TB/s的RTX 4090 D,性能上有着显著的领先优势,可以期待其在实际应用中表现出更卓越的性能。同时,在NVIDIA编解码器的配置上,RTX 5090 D相较于RTX 4090 D也增加了额外的一个编码器和一个解码器,输出接口部分也升级到了DP2.1b和HDMI 2.1b。

从纸面规格来看,RTX 5090 D显然在性能上超越了RTX 4090 D,硬件规格上的差异大约有50%。然而,在核心频率方面,RTX 5090 D可能出于对整体功耗的控制考虑,相较于RTX 4090 D有所下调。但总体而言,从纸面参数来看,预期的性能提升至少不会低于30%,具体性能表现,我们期待后续的详细评测来揭晓。

随着RTX 5090 D的震撼发布,Advanced系列也迎来了新的成员——iGame GeForce RTX 5090 D Advanced 32GB。当我们谈论到iGame旗下的Advanced系列时,不得不提到其标志性的设计元素——红圈“引力之环”,这一设计令人印象深刻,它灵感来源于神秘莫测的环状星系“哈氏天体”。这一设计不仅继承了iGame品牌经典的设计理念,更是对宇宙深邃奥秘的一种致敬。通过采用金属压铸工艺,使得这个圆环拥有了坚硬而细腻的质感,体现了科技与艺术的完美结合。

除了标志性的红圈“引力之环”设计,iGame GeForce RTX 5090 D Advanced 32GB还对外观设计进行了大刀阔斧的优化,其正面巧妙地采用了黑透磨砂外甲作为主基调,这一设计不仅增强了显卡的视觉效果,更让显卡内部结构若隐若现,增添了几分神秘感。此外,iGame GeForce RTX 5090 D Advanced 32GB的散热系统也得到了显著的改进,采用了更高效的散热材料和设计,确保了显卡在长时间高负荷工作下的稳定性和性能的持续输出。

在细节设计上,iGame GeForce RTX 5090 D Advanced 32GB的机身融入了更多圆润的边角和流畅的曲线。尤为突出的是那独特的银色“莫比乌斯带”造型,巧妙地将宇宙的神秘与超前的科技美学结合在一起,呈现出一种超越时空界限的审美理念。

同时,双RGB灯环的设计透过中间的黑色透风镰刀形扇叶及黑色透风外甲,呈现出震撼的光影盛宴。通过iGame Center软件,玩家可以调节多种灯光模式及颜色,彰显自己的个性与不凡。

视频接口一侧提供了3×DP2.1b+1×HDMI2.1b的配置,同时上方预留了传统的一键超频按键。

iGame GeForce RTX 5090 D Advanced 32GB的底部金属装甲同样富有设计感,丰富的线条加上尾部设计的圆形镂空散热趋于为其平添了几分层次,同时一体式金属能够在保护PCB的同时提高散热效率。

电源接口是12VHPWR改进版,也就是最新的12V-2×6接口。

散热孔经过特别设计,在特定角度能观测到iGame LOGO。

iGame GeForce RTX 5090 D Advanced 32GB散热结构拆解示意图

iGame GeForce RTX 5090 D Advanced 32GB使用了在高端服务器上应用较多的导流型鳍片,利于风流进入,加速内部气流循环,从而提升散热效率。

iGame GeForce RTX 5090 D Advanced 32GB配置了星环RGB灯效,并延伸到了显卡尾部,上机效果非常优秀。

▲iGame GeForce RTX 5090 D Advanced 32GB灯效展示视频

▲通过七彩虹iGame Center软件,可以调节iGame GeForce RTX 5090 D Advanced 32GB的灯效,也能监控显卡的运行状况,并在此进行显卡超频等操作。

▲到截稿时,GPU-Z的最新版本尚无法识别RTX 5090 D的全部信息,包括GDDR7显存也未能识别。不过从能够识别的信息可以看到它的一些资料,包括支持PCIe 5.0、21760个CUDA核心、显存位宽、带宽以及核心频率为2017MHz~2407MHz等。

iGame GeForce RTX 5090 D Advanced 32GB产品参数

核心架构:Blackwell

核心代号:GB202

制程工艺:TSMC 4N NVIDIA定制

CUDA核心:21760

RT Core:170(第四代)

Tensor Core:680(第五代)

核心基础频率:2017MHz

核心Boost频率:2407MHz

显存容量:32GB GDDR7

显存位宽:512bit

显存带宽:1.792TB/s

NVENC:3个(第九代)

NVEDEC:2个(第六代)

输出接口:3×DP2.1b+1×HDMI 2.1b

供电相数:16+7+6

产品尺寸:368.2mm×159.7mm×69.3mm(含挡片)

TDP:575W

参考价格:16499元

性能实测,AI与游戏性能大幅提升

接下来,我们将深入探讨iGame GeForce RTX 5090 D Advanced 32GB D显卡在游戏性能、人工智能性能以及设计创作性能等多个方面的表现。通过一系列详尽的体验性测试,我们将利用客观数据来揭示GeForce RTX 5090 D显卡究竟能为我们带来哪些性能上的惊喜。

PS:后文所述RTX 5090 D如无特别说明,皆指iGame GeForce RTX 5090 D Advanced 32GB。

测试平台

GPU:NVIDIA GeForce RTX 5090 D、NVIDIA GeForce RTX 4090 D

处理器:AMD锐龙7 9800X3D

主板:ROG STRIX X870-A GAMING Wi-Fi吹雪

内存:七彩虹影DDR5 6000 16GB×2

硬盘:长江存储致态TiPro9000 SSD 2TB

电源:ROG THOR 1200W

显示器:戴尔UP3218K(7680×4320@60Hz)

操作系统:Windows 11 24H2

驱动程序:NVIDIA Game Ready Driver 571.86

DLSS 4,游戏升帧黑科技的又一新标杆

前面已经讲到,DLSS 4技术可以说是GeForce RTX 50系GPU的最大亮点之一,因此我们首先来看看DLSS 4在实际游戏中的具体性能表现。

在本次测试环节,我们将集中评估四款已经支持DLSS 4技术的Beta测试版游戏的性能,这些游戏包括《赛博朋克2077》《心灵杀手2》《霍格沃茨之遗》以及《星球大战:亡命之徒》。同时,对于那些还未升级到最新DLSS 4模型和功能的游戏,NVIDIA应用程序将通过一个新引入的DLSS覆盖功能,启用DLSS 4支持,这一功能被称为Override模式。Override模式将允许那些已经支持DLSS 3单帧生成但尚未集成DLSS 4多帧生成技术的游戏或应用启用DLSS 4 Transformer模型,并提供多帧生成的支持。在初始测试阶段,NVIDIA app已经解锁了《漫威争锋》和《龙腾世纪:影障守护者》这两款游戏的Override模式,而到了正式发布时,预计将有大约75款游戏和应用程序将获得DLSS 4或Override模式的支持。

因此,在DLSS 4性能测试的部分,我们将会测试四款原生DLSS 4支持的游戏以及两款基于NVIDIA app内开启Override模式后支持的DLSS 4游戏。

▲要开启Override模式,首先要进入NVIDIA app,定位到相关游戏或应用程序,在“驱动程序设置”选项下,点击“DLSS优设-模型设置”中选择“最新”,并点击“应用”。

▲此时“帧生成”和“超分辨率”皆显示为“最新”

▲在“DLSS优设-帧生成”选项中,可以设置DLSS多帧生成的挡位,多数游戏和应用中都有3X和4X可选,部分游戏或应用中是2X和4X。

最后回到游戏中开启DLSS帧生成,就能享受到DLSS多帧生成带来的巨大性能提升了。

▲不支持Override模式的游戏或应用,在“DLSS优设”相关选项中会显示灰色不可选。

在《赛博朋克2077》游戏中启用DLSS 4多帧生成技术时,可以看到DLSS超分辨率模式提供了Transformer Model和Convolutional Neural Network(卷积神经网络模型)两种选择。对于GeForce RTX 50系列GPU而言,Transformer模型能够提供更优质的图像表现和性能提升,因此,对于RTX 50系列GPU用户来说,选择Transformer模型将是一个更佳的决定。

特别需要指出的是,在《赛博朋克2077》中,DLSS4多帧生成技术提供了2X(即原始DLSS 3)、3X和4X三种倍率选项。包括《赛博朋克2077》在内,我们在进行DLSS游戏性能测试时,统一将多帧生成挡位设置为4X。测试的六款游戏均采用最高画质设置以及最高等级的光线追踪效果。当然,对于《赛博朋克2077》《心灵杀手2》等支持路径追踪光追效果的游戏,我们在全部测试中都开启了最高等级的路径追踪光追效果,以获得最佳的游戏体验和最大限度地考察RTX 5090 D GPU的性能。

DLSS 4多帧生成技术在性能表现上确实令人印象深刻。在《赛博朋克2077》这款游戏中,当启用DLSS质量模式时,该显卡的帧率提升幅度达到了惊人的5.2倍,这相当于在没有DLSS技术的情况下,性能达到了原生的6.2倍。而当切换到DLSS性能模式时,性能的飞跃更是显著,帧率增幅高达7.3倍,这相当于在没有DLSS技术的情况下,性能达到了原生帧率的大约8.3倍。

在4K分辨率环境下,原生帧率状态下,六款支持DLSS 4(包括Override模式)的游戏测试中,GeForce RTX 5090 D相较于RTX 4090 D的领先幅度大约在13%至50%之间,平均领先约37%。当启用DLSS 4多帧生成(DLSS超分辨率平衡模式)后,与启用DLSS 3单帧生成的RTX 4090 D相比,GeForce RTX 5090 D的性能领先程度更是达到了130%至217%,平均性能领先超过150%。

在1440p分辨率的测试中,结果也显示出一致性。在原生帧率状态下,RTX 5090 D相较于RTX 4090 D的性能领先优势平均约为26%。当启用DLSS 4的多帧生成技术后,与开启DLSS 3的RTX 4090 D相比,RTX 5090 D的性能领先幅度更是达到了平均125%的惊人水平。

在DLSS 4的支持下,RTX 5090 D应对8K分辨率下最高画质、最高光追效果的3A级游戏大作毫无压力,游戏体验感受直接被拉到了极致。

在3DMark的DLSS TEST中,原生帧率状态下,RTX 5090 D相对RTX 4090 D的理论性能领先约为46%,但是同比开启DLSS 4 4X多帧生成的RTX 5090 D和开启DLSS 3单帧生成的RTX 4090 D,前者的性能领先则达到了166%。对RTX 5090 D来说,开启DLSS 4 4X模式之后,相比开启DLSS 3模式时,性能增幅也达到了80%以上。

DLSS 4带来的另一个巨大好处就是1%Low fps的巨大提升。1% Low fps其实一个判定游戏卡顿情况的指标,其具体含义是指整个测试过程中所有帧率中最慢的1%帧率的平均值,某种意义上也可以将其理解为一段时间的测试、游戏体验过程中最低的那1%帧率的平均值。1%Low fps直接表现在游戏体验上就是卡顿的情况,如果1%Low fps低于60fps,游戏会产生偶发的卡顿,如果1%Low fps甚至低于了30fps,你就会感到游戏会经常处于卡顿之中。

在DLSS 4性能测试过程中,我们用NVIDIA Frameview软件抓取并记录测试过程的帧率,包括最高、最低帧率、平均帧率以及1%Low fps。从测试数据可以看到,随着DLSS 4带来巨大的平均游戏帧率提升,1%Low fps也得到了极大的提升,比如《星球大战:亡命之徒》游戏中,1%Low fps从27fps提升到了161fps,也意味着游戏体验从经常的卡顿提升到了绝对流畅的程度。

▲传统1%Low fps抓取与Frameview抓取1%Low fps的区别,用ms between display过程抓取更加准确。

DLSS 4如此巨大的游戏性能增幅,是否随之而来的就是游戏画质的严重下降?让我们一起来看下,DLSS 4到底对游戏画质有多大影响。

▲4K分辨率DLSS 4 4X各模式画质对比(可点击放大观看)

▲4K分辨率DLSS 4 4X各模式画质对比(可点击放大观看)

▲1440p分辨率DLSS 4 4X各模式画质对比(可点击放大观看)

我们在《漫威争锋》、《赛博朋克2077》和《心灵杀手2》这三款游戏中,分别截取了在DLSS 4X设置下不同角分辨率挡位的同一场景截图,并利用NVIDIA iCAT软件对这些场景进行了深入的对比分析。分析结果显示,在DLSS 4 4X设置下,尽管帧率显著提升,游戏画质并未出现明显下降,甚至在DLSS 4X质量模式下,画质相较于原生设置有所提升。只是在超级性能模式下,画质损失可以被察觉。而在1440p分辨率下,当DLSS超分辨率设置在平衡挡位或更高时,游戏画质基本保持稳定,在性能模式及以下挡位时,画质损失则相对较为明显。

▲《心灵杀手2》中,DLSS 2、DLSS 3和DLSS 4同挡位设置画质对比

▲《赛博朋克2077》DLSS 2、DLSS 3、DLSS 4同挡位设置画质对比

让我们进一步探讨在相同的DLSS超分辨率设置下,DLSS 2、DLSS 3与DLSS 4之间是否存在显著的画质差异。通常,根据我们的传统观念,单帧生成和多帧生成这类“插帧”技术可能会导致画质下降。然而我们发现,在启用DLSS多帧生成的DLSS 4模式下,游戏画质不仅没有下降,反而相较于DLSS 2和DLSS 3有所提升。Transformer模型和基于AI的画面帧生成技术确实带来了更佳的游戏体验。正如我们在之前多次测试DLSS 3时所强调的,对DLSS 4来说更是如此——“开启它,就是最佳选择。”

游戏性能测试

接下来,让我们深入了解传统游戏的性能表现。本部分测试重点在于展示RTX 5090 D在真实游戏环境中的性能,同时与前一代旗舰产品RTX 409 D进行对比,分析RTX 5090 D在基础游戏性能上的提升。鉴于当前玩家普遍使用的显示器分辨率,我们主要在4K和1440p两种分辨率下进行了游戏测试。在所有游戏测试中,我们均将画质设定为最高级别,并将光追游戏的实时光线追踪效果等级调至最高,支持路径追踪的游戏中也将路径追踪效果设置为最高。对于之前已经测试过DLSS 4性能的游戏,本部分测试仅展示其原生帧率对比,供玩家参考。

先说结果:4K分辨率下RTX 5090 D比RTX 4090 D强约33%,1440p分辨率下强约25%。

在DLSS技术的加持下,RTX 5090 D能够在4K分辨率下以最高画质和最极致的光线追踪效果,提供极为流畅的游戏体验。尽管面对一些对显卡性能要求极高的3A级游戏大作,RTX 5090 D在路径追踪全开、最高画质、最高光追效果的设置下未开启DLSS时,无法在原生状态下达到非常流畅的游戏体验,但是一旦启用DLSS,游戏的帧率几乎可以稳定在100fps以上,实现了极为流畅的游戏体验。

对比RTX 4090 D,可以看到4K分辨率下的原生帧率状态,RTX 5090 D相比RTX 4090 D的平均性能领先约为35%左右,开启DLSS 2/3之后,RTX 5090 D相对于RTX 4090 D的性能领先幅度约为32%。如果开启DLSS 4,则是碾压的姿态。

1440p分辨率下的测试结果也基本相仿,相对RTX 4090 D来说,RTX 5090 D的整体游戏性能在原生帧率状态下平均领先约26%,开启DLSS之后,性能领先约24%。

AI性能测试

UL Procyon AI Image Generation(FP8/4 FLUX.1 DEV)

我们利用UL Procyon AI图像生成测试框架,采用NVIDIA提供的FLUX.1 DEV FP4量化模型进行了相应的测试。NVIDIA所提供的FLUX.1 DEV模型是一个包含120亿参数的先进AI图像生成模型,能够创造出高质量的AI图像。

▲该模型提供FLUX.1 FP8和FP4两种精度格式

▲最终结果呈现的主要性能指标是图像生成总速度(秒/图)和生成总耗时(秒)

根据测试结果,在FP8文生图模式下,RTX 5090 D的图片生成速度大约为6.4秒每张,生成4张图片的总耗时约为25.66秒,相较于RTX 4090 D,性能提升了约67%。而在FP4文生图模式下,RTX 5090 D的图片生成速度更是达到了3.86秒每张,4张图片的总生成时间约为15.46秒,此时性能相较于RTX 4090 D提升了3.9倍。这与前文技术解析部分的分析相吻合,即Blackwell架构显著提升了FP4精度格式的支持和计算能力,极有可能成为未来AI计算领域的一个重要趋势。

UL Procyon AI TEXT Generation大语言模型AI文本生成测试

UL Procyon AI TEXT Generation是一项针对AI文本生成计算测试的内容,也隶属于UL Procyon测试套件中的一部分。在本次测试中,我们将使用Phi-3.5-mini-3.8B (约2.3GB)、Mistral-7B-v0.2 7B (约3.8GB)、Llama -3.1 8B (约5.6GB)和Llama-2 13B (约7.4GB)这四个大小不一的模型进行AI文本生成测试,它们有不同的架构,同时也代表了不同类型的应用场景。UL Procyon将依据这四个模型执行一系列AI计算任务,并据此得出性能评估得分。性能展示的最终结果将主要依据总得分、第一个文本单元的响应时间(秒)以及文本单元的平均输出速度(文本单元/秒)来进行衡量。

根据测试结果,GeForce RTX 5090 D在四个AI文本生成测试模型中均展现了卓越的性能。在对硬件要求相对较低的Phi 3.5-mini-3.8B模型中,RTX 5090 D在总得分和AI文本输出速度上均领先RTX 4090 D约25%。在更为复杂的Llma-2和Llma-3.1模型中,其性能优势更是达到了近40%。综合来看,RTX 5090 D在四个模型测试的总得分上平均领先RTX 4090 D近30%,在AI文本输出速度上领先超过40%,并且在第一文本单元响应时间上,其性能领先约18%,尽管基数较小。

ML Perf-Client v0.5 LLM大语言模型AI文本生成测试

在本次测试中,我们采用了MLPerf-Client v0.5基准测试,主要目的是测量GPU基于大型语言模型(LLM)的AI推理性能。

▲ML Perf-Client v0.5程序需要通过Windows CMD启动在拟DOS环境下运行,最终输出结果以第一文本单元响应时间和AI文本生成平均速度作为主要性能衡量指标。

ML Perf-client使用来自Meta的Llama2-7B模型进行所有基准测试。在测试中主要进行综合测试、内容生成(Content Generation)、创意写作(Creative Writing)、轻度总结(Summarization,Light)和中度总结(Summarization,Moderate)五个方面的AI文本生成能力测试。在最后的输出结果上,主要以第一个文本单元响应时间(Avg Time to Tokens)和AI文本生成平均速度(Avg Token Generation Rate)作为主要性能指标。

ML Perf Client的测试结果基本与UL Procyon AI TEXT Generation接近,在第一个文本响应时间上,GeForce RTX 5090 D相比RTX 4090 D平均领先约27%,而在AI文本生成速度上,RTX 5090 D领先RTX 4090 D则达到了近40%。对大多数的用户来说,AI文本生成速度更能代表在AI文本生成应用中的持续性能表现,也更有参考性。

Studio,设计创作性能测试

接下来看GeForce RTX 5090 D在设计创作性能方面的表现。在这部分的测试中,我们主要集中在基于Davinci Resolve Studio 19的4:2:2视频处理及转码测试以及视频转码性能上对比RTX 4090 D。而在3D渲染性能部分,则是用Blender Opendata Benchmark、V-Ray 6以及D5渲染器对其进行考核。

视频创作性能,4:2:2格式硬件加速支持是大亮点

当然,在GeForce RTX 50系GPU面世之前,Davinci Resolve Studio并不支持GPU对4:2:2视频的硬件加速,此时玩家们基本是通过Voukoder等插件在Davinci Resolve Studio等软件中实现对4:2:2视频的支持。因此,我们首先来看GeForce RTX 5090 D硬件加速4:2:2视频转码处理与传统的Voukoder软件加速处理过程的性能对比。

测试中我们使用了一段4:2:2的RAW源视频,分别在GeForce RTX 5090 D硬件加速和Voukoder软件加速两种状态下进行了四种类型的转码测试。测试结果显示,在4:2:2视频转码H.265时,使用NVIDIA编解码器硬件加速条件下性能表现领先Voukoder软件解码加速的16倍左右。在4:2:2视频转码H.264格式时,NVIDIA编解码器硬件加速的性能也达到了Voukoder软件编解码的3.5倍以上的速度领先。对RTX 50系GPU的用户来说,Blackwell架构的全新NVENC和NVDEC能为4:2:2视频带来超级强大的加速处理性能,绝对应该成为这类视频创作工作者的首选。

在GeForce RTX 5090 D和RTX 4090 D的视频剪辑处理及转码性能测试上,我们同样使用这段

4:2:2源视频,转码为4:4:4@10bit的H.264、H.265及AVI三种输出格式。从最终测试结果来看,除了提供对4:2:2视频的原生编解码支持之外,RTX 50系GPU的编解码器性能相比RTX 40系在整体性能上有53%~160%的领先幅度,还是非常可观的。

3D渲染性能,表现不俗,DLSS 4又立功了

在Blender Opendata Benchmark的3D渲染性能测试中,最终数据表明GeForce RTX 5090 D在整体平均性能上领先RTX 4090 D约33%,在V-Ray 6 GPU RTX Benchmark测试中,RTX 5090 D相比RTX 409 D则有36%左右的性能领先。二者测试结果基本相符,也符合GeForce RTX 5090 D相对前一代对位产品的性能提升期望值。

在D5渲染器的测试部分,我们选择了两个场景,其一是场景非常复杂,带有各种实时光线追踪效果的日式花园场景,另一个则是同样有较复杂场景的下雨的庭院。

我们拿到了可以通过NVIDIA app开启Override模式的D5渲染器测试版,DLSS 4在这一测试中又发挥出了令人瞩目的性能。即使在桌面最高的8K分辨率下,开启DLSS 4x多帧生成之后,GeForce RTX 5090 D仍然能够保持接近80fps的实时渲染帧率比较流畅地完成实时交互渲染,而GeForce RTX 4090 D即使开启DLSS 3帧生成,在8K分辨率也几乎是无能为力。

在4K分辨率下实时交互渲染对比前后两代对位GPU可以发现,在场景非常复杂且带有各种光追特效的日式花园场景下,同比原生状态,RTX 5090 D的渲染性能领先RTX 4090 D约45%,而在开启了Override 4X模式之后,RTX 5090 D相比开启DLSS 3 帧生成的RTX 4090 D在性能上的领先幅度已经达到了160%,实在亮眼。同时可以看到,开启Override 4x模式之后的D5渲染器中,GeForce RTX 5090 D所表现出的1%Low fps也有了极大幅度的提升,两个场景渲染下分别达到了93.7fps和141.6fps,彻底解决了原生状态下的卡顿问题。

在日式花园场景的CG渲染输出为视频的测试中,GeForce RTX 5090 D所用的时间相较RTX 4090 D也大幅度缩短,性能领先达到30%以上

Broadcast,带来Studio Voice和Virtual Key Light新特性

说说大家都熟悉的NVIDIA Broadcast。随着RTX 50系GPU的发布,NVIDIA Broadcast也带来了两项重要的更新——Studio Voice音棚音效和Virtual Key Light虚拟补光。

音棚音效是一种新的AI增强麦克风效果,旨在显著提高玩家的声音质量。我们在测试中使用收音麦克风对比了开启音棚音效和关闭音棚音效两种状态下的录音回放,测试发现在开启音棚音效确实能有效降低房间内的键盘敲击声等噪声,虽然做不到完全消除,但已经降低到了一个令人非常满意的程度。同时测试人员的声音经过AI模型处理之后明显更清晰、更洪亮,辨识度得到了极大增强。

▲虚拟补光关闭

▲虚拟补光开启

虚拟补光功能可以重新“点亮”玩家的脸庞,就好像你在家庭工作室里设置了补光灯一样,它可以减少面部阴影,使摄像头前的玩家看起来像是均匀照明,改善玩家在聊天风格的直播、视频会议或录制讲解视频时的最终呈现效果。

有一点需要特别强调的是,和大多数NVIDIA Broadcast功能不同,音棚音效和虚拟补光需要使用复杂的AI模型,并需要高端GPU(NVIDIA推荐使用GeForce RTX 5080或更高)。因此,它们对GPU的占用有较大影响,并不适合在游戏或其他高GPU占用场景中使用,但对于仅聊天直播、播客、视频会议或离线内容创作来说是非常棒的。

温度与功耗

最后,来看下iGame GeForce RTX 5090 D Advanced 32GB的功耗与散热方面的表现。

七彩虹的这张iGame GeForce RTX 5090 D Advanced 32GB在散热性能上的表现还是非常优秀的,面对600W的TDP,在满载烤机20分钟左右,GPU核心温度被控制在67℃左右,可以说是很优秀的了。而在功耗方面,4K分辨率游戏状态下,iGame GeForce RTX 5090 D Advanced 32GB的平均游戏功耗(《赛博朋克2077》,最高画质,最高光追效果)约为560W,接近TDP设计。而在满载烤机状态下,iGame GeForce RTX 5090 D Advanced 32GB的功耗约为608W,基本达到了GB202核心的理论TDP设计上限。

DLSS 4加持与AI性能大幅增强,RTX 50系很值

在评估原生游戏性能方面,根据我们的测试数据,GeForce RTX 5090 D相较于RTX 4090 D在性能上平均领先约35%。作为新一代产品,虽然这一性能提升可能未达到某些玩家的预期,但无疑它已经达到了合格的标准,并非如一些玩家所戏称的“微小进步”。此外,我们认为对于RTX 50系列GPU,玩家更应聚焦于它所引入的创新特性和功能,这些才是RTX 50系列GPU真正的亮点。

首先,DLSS 4技术自从发布以来,就一直受到业界和游戏玩家的广泛关注。在我们进行的多项测试中,这项技术展现出了卓越的性能,显著地提升了游戏体验和实时3D渲染的能力。得益于DLSS 4技术的加持,RTX 5090 D显卡的性能相较于同级别的RTX 4090 D(搭载DLSS 3技术)实现了翻倍甚至更高的性能提升。虽然测试时受限于各种NDA限制,我们只测试了四款原生支持DLSS 4和两款通过Override支持DLSS 4的游戏,但随着RTX 50系列显卡的正式上市,届时将有超过75款支持DLSS 4技术的游戏和应用同步上线。此外,NVIDIA app中的Override模式为现有的DLSS 3游戏提供了便捷的升级路径,只要游戏开发者提供相应的接口,DLSS 3游戏就可以迅速升级至DLSS 4,从而让RTX 50系列GPU从中获得显著的性能增益。相较于前一代RTX 40系列GPU,DLSS 4技术无疑是技术进步的亮点,也是RTX 50系列显卡更值得游戏玩家关注和选择的关键因素。毕竟,DLSS 4技术的存在本身,就足以成为游戏玩家选择N卡的充分理由。

接下来是AI性能和设计创作性能的显著提升。得益于FP4精度格式计算能力的大幅增强以及架构变革带来的CUDA核心效率提升,RTX 50系列GPU在设计创作性能方面相较于RTX 40系列实现了显著进步,特别是在AI计算能力方面。FP4未来可能会成为GeForce RTX GPU的核心焦点。只要在模型优化方面做到位,RTX 50系列的前景无疑值得期待。对于设计创作者来说,RTX 50系列依旧是他们的首选。

在讨论显卡市场时,我们不得不关注价格这一关键因素。NVIDIA也宣布了GeForce RTX 5090 D的首发指导价格,定为16499元人民币。这一价格与市场上其他同类产品相比,显得颇具吸引力。例如,目前市面上的RTX 4090 D系列显卡的价格大多保持在15000元以上。因此,如果RTX 5090 D在市场上的溢价不是特别高,那么它无疑会提供更高的性价比。对于那些寻求高性能显卡的消费者来说,RTX 5090 D无疑是一个值得考虑的选择,因为它不仅提供了先进的技术规格,而且在价格上也显示出了一定的优势。

无论是游戏性能、AI性能还是设计创作性能,GeForce RTX 5090 D都带来了令人瞩目的进步与革新。全新的架构、更高效的CUDA核心、DLSS 4、FP4算力的提升、支持4:2:2视频编解码器等众多新特性,无疑标志着行业未来的发展方向。因此,在完成测试后,我们坚信RTX 50系GPU并非仅仅是“小步快跑”,而是携带着众多创新特性,迈向未来的征程。与RTX 40系GPU相比,我们相信它们是更佳的选择。随着主流级产品的陆续上市,取代RTX 40系成为消费级显卡市场的主流热门产品,这一过程似乎是顺理成章的。

让我们再次聚焦于iGame GeForce RTX 5090 D Advanced 32GB显卡。在我们的测试中,这款显卡展现了卓越的性能,特别是在DLSS 4技术的加持下,其游戏性能和设计创作加速能力更是令人惊叹。设计方面,这款显卡同样引人注目,采用了更多圆润的边角和曲线设计,银色的“莫比乌斯带”设计不仅与红色的“引力之环”相得益彰,还深刻地诠释了永恒与无限的概念,体现了一种超越时空的美学理念,即便置于机箱内也极为引人注目。此外,这款显卡在散热性能上表现出色,67℃的烤机温度几乎无人能出其右。更值得一提的是,这款产品的市场报价与NVIDIA的官方指导价格持平,16499元的价格使其在与RTX 4090 D的比较中,具有更高的性价比。对于那些追求极致性能的资深玩家或潮流先锋来说,这款显卡无疑是一个极佳的选择。

转载请注明原文地址:https://www.gamev918.cn/tech/1324077.html