SexInSex! Board » IT新闻科技最前线(关闭) » NVIDIA Fermi GF100游戏架构全解析[29p]

查看完整版本: NVIDIA Fermi GF100游戏架构全解析[29p]

f_dog 2010-1-19 09:32

NVIDIA Fermi GF100游戏架构全解析[29p]

2009年十一期间，[url=http://news.mydrivers.com/1/145/145916.htm][color=#0000ff]NVIDIA第一次向我们展示了代号Fermi的全新图形架构[/color][/url]，不过几乎完全是关于通用计算的，展示了NVIDIA开辟新领域的决心。到了今年初的CES 2010上，NVIDIA终于首次公开拿出了Fermi架构高端型号GF100，展示立体多屏环绕技术3D Vision Surround的同时，内部运行了几个新的演示DEMO。
今天，NVIDIA终于公开了Fermi GF100在游戏架构方面的诸多特性，这才是普通消费者最为关心的，也是我们要和大家分享的。
[align=center][url=http://news.mydrivers.com/Img/20100118/06141745.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06141745.jpg[/img][/url][/align]
不过我们仍未看到最终零售版的GF100显卡，不少关键的核心参数也暂时缺失，所以如果你急切地想知道下边这些内容，抱歉要失望了。
－核心面积
－时钟频率
－产品型号
－实际功耗
－零售价格
－游戏性能
Fermi芯片至今仍未开始真正的批量生产，而核心面积在很大程度上决定着良品率，良品率又是时钟频率的前提，功耗和性能又都是建立在频率基础上，它们又都是价格的组成要素。当然了，GF100必须要比Radeon HD 5870速度更快，而且领先幅度要尽量高；功耗和价格也已经不可避免地要更高，只看能控制到什么程度了。
下边是2009年9月1日拍摄的Fermi GF100内核照片：
[align=center][url=http://news.mydrivers.com/Img/20100118/06110220.jpg][img]http://news.mydrivers.com/Img/20100118/S06110220.jpg[/img][/url][/align]
[b]一、GF100游戏架构的两颗新心脏[/b]
我们已经知道，GF100采用台积电40nm工艺制造，集成大约30亿个晶体管，包含512个流处理器(SP)，或者按照NVIDIA官方的说法是CUDA核心。32个这种核心组成一个流式多处理器阵列(SM)，然后再四个组成一个图形处理集群(GPC)。GF100就是这样的三层分级架构：[b]4个GPC、16个SM、512个SP[/b]。
此外GF100还有64个纹理寻址单元、256个纹理过滤单元、48个ROP单元，显存位宽384-bit，搭配GDDR5颗粒。核心/Shader/显存频率都没有定夺，显存容量也尚待确定。
[align=center][table=550][tr][td=1,1,119] [/td][td=1,1,89][b]GF100[/b][/td][td=1,1,100][b][b]GTX 295[/b][/b][/td][td=1,1,100][b][b]GTX 285[/b][/b][/td][td=1,1,100][b][b]9800 GTX+[/b][/b][/td][/tr][tr][td][b]流处理器[/b][/td][td]512[/td][td]2 x 240[/td][td]240[/td][td]128[/td][/tr][tr][td][b]纹理寻址/过滤单元[/b][/td][td]64/256[/td][td]2 x 80 / 80[/td][td]80 / 80[/td][td]64 / 64[/td][/tr][tr][td][b]ROP单元[/b][/td][td]48[/td][td]2x 28[/td][td]32[/td][td]16[/td][/tr][tr][td][b]核心频率[/b][/td][td]?[/td][td]576MHz[/td][td]648MHz[/td][td]738MHz[/td][/tr][tr][td][b]Shader频率[/b][/td][td]?[/td][td]1242MHz[/td][td]1476MHz[/td][td]1836MHz[/td][/tr][tr][td][b]显存频率[/b][/td][td]? GDDR5[/td][td]999MHz GDDR3[/td][td]1242MHz GDDR3[/td][td]1100MHz GDDR3[/td][/tr][tr][td][b]显存带宽[/b][/td][td]384-bit[/td][td]2 x 448-bit[/td][td]512-bit[/td][td]256-bit[/td][/tr][tr][td][b]显存容量[/b][/td][td]?[/td][td]2 x 896MB[/td][td]1GB[/td][td]512MB[/td][/tr][tr][td][b]晶体管[/b][/td][td]3B[/td][td]2 x 1.4B[/td][td]1.4B[/td][td]754M[/td][/tr][tr][td][b]制造工艺[/b][/td][td]TSMC 40nm[/td][td]TSMC 55nm[/td][td]TSMC 55nm[/td][td]TSMC 55nm[/td][/tr][tr][td][b]价格[/b][/td][td]$?[/td][td]$500[/td][td]$400[/td][td]$150 - 200[/td][/tr][/table][/align]

先看一下NVIDIA最新公布的比较详尽的GF100架构图，接下来我们就详细阐述其中的几个重点之处。
[align=center][url=http://news.mydrivers.com/Img/20100118/06112514.png][img=550,448]http://news.mydrivers.com/Img/20100118/S06112514.png[/img][/url][/align]

NVIDIA声称Fermi GF100是一个全新架构并非没有道理。不但是通用计算方面，游戏方面它也发生了翻天覆地的变化，几乎每一个原有模块都进行了重组：有的砍掉了，有的转移了，有的增强了，还有[b]新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)[/b]。
[align=center][img=550,90]http://news.mydrivers.com/Img/20100118/06120439.png[/img][/align][b]光栅引擎严格来说光栅引擎并非全新硬件，只是此前所有光栅化处理硬件单元的组合，以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作[/b]，每个时钟循环周期处理8个像素。[b]GF100有四个光栅引擎，每组GPC分配一个[/b]，整个核心每周期可处理32个像素。
[align=center][img=550,144]http://news.mydrivers.com/Img/20100118/06121339.png[/img][/align][b]多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作，DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎，每组SM一个，亦即每组GPC四个。[/b]
[align=center][url=http://news.mydrivers.com/Img/20100118/06145803.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06145803.jpg[/img][/url][/align]多形体引擎绝非几何单元改头换面、增强15倍而已，[b]它融合了之前的固定功能硬件单元，使之成为一个有机整体[/b]。虽然每一个多形体引擎都是简单的顺序设计，但[b]16个作为一体就能像CPU那样进行乱序执行(OoO)了，也就是趋向于并行处理。[/b]NVIDIA还特地为这些多形体引擎设置了一个专用通信通道，让它们在任务处理中维持整体性。
当然，这种变化复杂得要命，也消耗了NVIDIA工程师无数的精力、资源和时间。事实上可以这么说，多形体引擎正是GF100核心最大的变化所在，也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁Ujesh Desai说过这么一句话：设计这么大的GPU实在是太TMD难了。其实，他指的并不是30亿个晶体管。
这么做也是不得已而为之。考虑到[b]细分曲面单元的几何复杂性[/b]，固定功能流水线已经不适用，整个流水线都需要重新平衡。通过多形体引擎的并行设计，几何硬件不再受任何固定单元流水线的局限，可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比，GF100走上了另一条路，而且颇有要做CPU的架势。
[align=center][img=349,902]http://news.mydrivers.com/Img/20100118/06123992.png[/img][/align]在每一组SM阵列里，纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。[b]每组SM里四个纹理单元[/b]，合伙使用12KB一级纹理缓存，并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样，并支持DX11新的压缩纹理格式。
[b]ROP单元总共48个，分为六[/b]组，分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。
除了ROP单元和二级缓存，几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起：一级缓存和Sahder单元本身是全速，纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说，想超频的话很多地方都要重新来过了。
[align=center][img=550,308]http://news.mydrivers.com/Img/20100118/S06151132.jpg[/img][/align]

[b]二、NVIDIA为何如此关注几何性能[/b]
在微软DX11规范的严格限制下，留给NVIDIA(还有AMD)自由发挥的空间并不大：不遵从当然不行，完全照搬就缺乏特色，自行其事又可能只是无用功。最终，NVIDIA选择了在速度上做文章。
[b]从NV30 GeForce FX 5800到GT200 GeForce GTX 280，NVIDIA显卡的几何性能只提高了不到3倍，而Shader性能提升了150多倍，但仅仅是从GT200到GF100，几何性能的增长倍数就达到了8x。[/b]
有了如此强大的几何性能，NVIDIA就[b]可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景，并保持和对手同样水平的性能[/b]，所以才有了16个多形体引擎和4个光栅引擎。
细分曲面是AMD DX11产品的宣传重点，但NVIDIA要做得复杂得多，而且理论上说效果更出色。接下来NVIDIA要做的就是让游戏开发商充分挖掘GF100架构的潜力，在保证性能的基础上做出更精致的游戏画面。
[align=center][url=http://news.mydrivers.com/Img/20100118/06144053.jpg][img]http://news.mydrivers.com/Img/20100118/S06144053.jpg[/img][/url][/align]

[align=center][url=http://news.mydrivers.com/Img/20100118/06144073.jpg][img]http://news.mydrivers.com/Img/20100118/S06144073.jpg[/img][/url][/align]

[align=center][img=550,349]http://news.mydrivers.com/Img/20100118/06125918.jpg[/img][/align]
[align=center]
细分曲面渲染过程示意图[/align][align=center][img=550,344]http://news.mydrivers.com/Img/20100118/06130625.jpg[/img][/align][align=center]
NVIDIA水面细分曲面DEMO[/align][align=center][img]http://news.mydrivers.com/Img/20100118/06133114.jpg[/img][/align][align=center]
NVIDIA头发细分曲面DEMO[/align]

[b]三、更好的画质：[/b]
[b]1、抖动采样(Jittered Sampling)[/b]
DX11详细定义了显卡需要提供的特性，但对渲染后端的工作涉及甚少，所以NVIDIA做了多形体引擎，还有抖动采样。
抖动采样不是新技术，长期用于阴影贴图和各种后期处理，通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。
DX9/10上抖动采样是分别拾取每一个纹素，DX10.1开始改用Gather4指令，NVIDIA则在硬件上[b]使用单独一条矢量指令[/b]。NVIDIA自己的测试显示，这么做的[b]性能大约是非矢量执行的两倍[/b]。
对游戏开发商来说，这意味着消耗的硬件资源更少；对游戏玩家来说，则意味着更好的画质。
[align=center][img]http://news.mydrivers.com/Img/20100118/06164468.png[/img][/align]

[align=center][img]http://news.mydrivers.com/Img/20100118/06164471.jpg[/img][/align]
[b]2、抗锯齿加速[/b]
和AMD一样，NVIDIA也对ROP单元做出了调整，以减少在MSAA(多重采样抗锯齿)下的性能损失，还有更多ROP单元来改善性能。
根据NVIDIA提供的数据，在《鹰击长空》里，8x/4x MSAA模式下GF100的性能分别是GeForce GTX 285的[b]2.33倍和1.61倍[/b]。
[align=center][img]http://news.mydrivers.com/Img/20100118/06165357.png[/img][/align]

[b]3、CSAA改进[/b]
CSAA全称[b]Coverage Sample Anti-Aliasing[/b]，意思是[b]覆盖采样抗锯齿[/b]。
CSAA是在G80 GeForce 8800 GTX上引入的，当时最高支持16x，如今不但提高到了[b]32x[/b]，而且[b]将色彩取样和覆盖取样分离开来[/b]，在32x CSAA中分别有[b]8个和24个[/b]，无论性能还是画质都有明显提升。NVIDIA宣称，GF100 CSAA从8x到32x的平均性能损失只有区区7％。
在GF100上，Alpha to Coverage可以使用全部采样点(最多32个)，而且有33个透明级别，透明多重采样抗锯齿(TMAA)的质量也因此得到了改进。
[align=center][img]http://news.mydrivers.com/Img/20100118/06170778.png[/img][/align]
限于篇幅，具体的技术细节这里就不赘述了，只看看NVIDIA提供的一些对比效果图：
[align=center][url=http://news.mydrivers.com/Img/20100118/06175034.jpg][img]http://news.mydrivers.com/Img/20100118/S06175034.jpg[/img][/url][/align]
[align=center][url=http://news.mydrivers.com/Img/20100118/06175053.jpg][img]http://news.mydrivers.com/Img/20100118/S06175053.jpg[/img][/url][/align]
[align=center][url=http://news.mydrivers.com/Img/20100118/06175073.jpg][img]http://news.mydrivers.com/Img/20100118/S06175073.jpg[/img][/url][/align]
[align=center][url=http://news.mydrivers.com/Img/20100118/06175092.jpg][img]http://news.mydrivers.com/Img/20100118/S06175092.jpg[/img][/url][/align]

[b]四、游戏计算(Compute for Gaming)[/b]
随着通用计算的盛行，专业领域和民用领域都前途无量，NVIDIA CUDA并行计算架构就会在GF100中继续发扬光大，而且用途更加广泛，单就游戏而言也是多方面的。
首先，CUDA架构的实现途径就多种多样，[b]CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing[/b]等等不一而足。这其中既有NVIDIA自己似有的开发方式，也有开放的业界标准规范，开发商可以自由选择。
[align=center][url=http://news.mydrivers.com/Img/20100118/06184010.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06184010.jpg[/img][/url][/align]
在游戏中，NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等，实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果。
下边试举几例：
[align=center][url=http://news.mydrivers.com/Img/20100118/06190482.jpg][img]http://news.mydrivers.com/Img/20100118/S06190482.jpg[/img][/url][/align][align=center]
《Metro 2033》里的景深效果[/align][align=center][url=http://news.mydrivers.com/Img/20100118/06191226.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06191226.jpg[/img][/url][/align][align=center]
《Dark Void》里的PhysX物理效果[/align][align=center][url=http://news.mydrivers.com/Img/20100118/06192100.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06192100.jpg[/img][/url][/align][align=center]
光线追踪演示DEMO[/align]NVIDIA还宣称，GF100的游戏计算性能相比GT200有了大幅提高，比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。

[b]五、立体多屏环绕技术3D Vision Surround[/b]
[url=http://news.mydrivers.com/1/153/153763.htm][color=#0000ff]NVIDIA在CES上就展示了这种技术[/color][/url]，我们也做过详细介绍。它不是GF100的专利，在GT200上也可以实现，只不过是现在才提出来，可以看作是对AMD ATI Eyefinity技术的回应。
ATI Eyefinity可以支持六屏输出，而[b]3D Vision Surround最多只能达到三屏[/b]，[b]但它支持3D立体效果[/b]，是3D Vision技术的扩展增强版。AMD方面也在积极开发3D立体技术，但目前还没有与ATI Eyefinity相结合的消息，所以这方面NVIDIA暂时拥有独特的优势。
遗憾的是，AMD Radeon HD 5000系列能单卡支持六屏输出，[b]NVIDIA GF100却仍然只能同时驱动两台显示器，三台或者更多的话就需要两块GF100组建SLI系统[/b]。这样一来，双卡系统的性能当然会好很多，但成本也急剧增加。
但也正因为不是GF100架构的全新技术，[b]GT200 GeForce GTX 200系列同样可以支持3D Vision Surround[/b]。事实上，NVIDIA在CES上展示的系统使用的就是两块GeForce GTX 285。
显示设备支持方面，[b]3D立体系统需要三台同样支持3D Vision技术的液晶显示器、投影仪或者DLP，单个分辨率最高1920×1080；如果是非立体系统(此时叫作NVIDIA Surround)，任何普通显示设备均可，单个分辨率最高2560×1600。[/b]
顺便说，它也支持边框纠正管理。
接下来的问题就是：这种系统的性能如何？程序和游戏兼容性又怎样？
[align=center][url=http://news.mydrivers.com/Img/20100118/06195187.jpg][img=550,308]http://news.mydrivers.com/Img/20100118/S06195187.jpg[/img][/url][/align]
[align=center][img=550,178]http://news.mydrivers.com/Img/20100118/06200170.jpg[/img][/align]

[b]六、结语[/b]
[b]总结一下Fermi GF100在游戏架构方面的四大灵魂之处：[/b]
[b]1、强劲的几何性能，最高八倍于GT200。[/b]
[b]2、非凡的画质，最高32x CSAA和最快三倍的阴影贴图。[/b]
[b]3、革命性的GPU游戏计算，物理、人工智能和光线追踪性能提速最多四倍。[/b]
[b]4、有史以来最高性能的GPU，在8xAA高分辨率下性能最高是GT200的两倍。[/b]
最后我们简单看看NVIDIA的一个重点演示DEMO：“[b]Supersonic Sled[/b]”。它基于二十世纪五十年的美国空军试验模拟而来，在一辆轨道滑车上捆绑了一个火箭，沿铁轨高速飞驰。
这里用到了[b]细分曲面[/b]、[b]DirectCompute[/b]、[b]PhysX[/b]等多项技术，还支持[b]3D Vision Surround[/b]，效果非常华丽，充分展示了GF100强大的游戏计算能力。

看静止的截图当然不过瘾，下边就有一段22秒钟的视频录像：
[url=http://images.anandtech.com/reviews/video/NVIDIA/GF100/GF100_Architecture_WMFG_R1.wmv][color=#0000ff]http://images.anandtech.com/reviews/video/NVIDIA/GF100/GF100_Architecture_WMFG_R1.wmv[/color][/url]

在拿到GF100显卡实物之前，关于Fermi架构我们能说的基本上也就这些了。从NVIDIA公布的这些资料看，GF100毫无疑问在专业和民用两个领域都会成为新的怪物级产品，彪悍的GPGPU通用计算和游戏几何性能令人激动。
不过GF100到底会有多快？功耗和发热量能否让人接受？价格又是几何？这些更实际的问题仍然没有答案，也还要再等至少两个月才会真正揭晓。到时候AMD已经在DX11世界里寂寞了长达半年之久，NVIDIA又能否力挽狂澜、绝境重生呢？

jimmyxo 2010-1-19 10:46

希望性能不错，赶紧出出了之后ADM的显卡才会降价

7658375 2010-1-20 11:02

这种卡我可能要大后年才可能在市场上见到真是厉害

bwh1986 2010-1-21 13:23

等这个卡等了好久，希望到时候发布一个中低端的版本用来取代260+就得了。

huangwenen 2010-1-21 14:51

在新卡没出来之前，一切都是空谈，就像前几次那样作假

gsdd 2010-1-21 19:37

关键是Fermi架构高端型号GF100能够给使用者带来多大画面改善！

sos333sos 2010-1-21 20:56

看看实物的效果图可好说话，好不好用，看个人的。。有送吗。

a54321989 2010-1-22 00:13

现在就等NV了，ATI的卡都出了好久了....

jxt_001 2010-1-22 00:34

觉得玩游戏还是玩主机的成本低一点，不过新架构真的很让人动心啊。

最终兵器彼氏 2010-1-22 00:59

N卡

这显卡的更新速度比CPU快多了
　CUDA[1][2]的 SDK中的编译器和开发平台支持Windows、Linux系统，可以与Visual Studio2003集成在一起。目前这项技术处在起步阶段，仅支持32位系统，编译器不支持双精度数据等问题要在晚些时候解决。CUDA 2.0已经解决以上问题。从GTX280开始双精度计算也被支持。

h004 2010-2-4 16:31

现在软件都在开发GPU渲染了,2010可以说是转向GPU渲染年了,以后民级卡都爽了,CPU渲染一张图几个小时,GPU都没多少秒,等待N卡,A卡没什么其他技术,不考虑

淡淡的味道 2010-2-4 16:38

看上去很好很强大，但是，肯定不是我这等平民百姓买得起的啊

页: [1]

查看完整版本: NVIDIA Fermi GF100游戏架构全解析[29p]