就在上周,摩尔线程举行了 2022 秋季发布会,推出了首款支持 Windows 环境和 DirectX 图形接口的国产显卡产品 MTTS80、全新多功能 GPU 芯片“春晓”、面向服务器应用的 MTT S3000,以及元计算一体机 MCCX。
笔者一开始以为,这次会是一场“PPT 发布会”。因为这次摩尔线程的步子实在迈的太大。但没想到就在一周后,这张 MTT S80 实实在在的摆在了的桌面上,而且是装上主机就可以在 Windows 下使用,并不需要复杂的调试。
在本文中,我们就来看看这张 MTT S80,为国产显卡的发展迈出了怎样的一步吧。测试配置如下:
外观设计
摩尔线程 MTT S80 的包装设计很是独特,上面国画风的线条图案彰显着它国产显卡的卖点。说来这也是第一次测试国产显卡,颇有纪念价值。
包装内除了显卡本体外,有一本非常简单的说明书,以及一根双 PCIe 8Pin 转 CPU 8Pin 线。之所以说明书如此简单,是因为它的安装方法与正常显卡无异,装上去,打开 Windows,安装驱动,完事。
MTT S80 显卡本体的设计水平相当高。整体设计方正,金属风满满。外壳采用了一体式设计,并使用铝合金压铸 + CNC 工艺,极大的提升了显卡的整体结构强度,不用显卡支架也不用担心变形。散热部分采用 3 风扇设计,2 个 8cm 风扇加上中间的 7cm 风扇构成了中心对称的整体布局。
两侧的风扇外缘被两条弧线包裹,其灵感来源是数学中常见的双曲函数,与中间圆形 RGB 风扇交相辉映,很有设计感。这的 3 组风扇均支持智能调速,在保证 GPU 稳定工作的同时,还能提供一个安静的使用体验。
背板有一整块金属保护,中间有一个摩尔线程 LOGO,右侧通风孔在通电后还会点亮,观感非常酷炫。
最炫酷的莫过于中间的橙色光环了,点亮后犹如喷薄的火山口,带来无穷的能量。
从显卡侧面可以看到 S80 密集的散热鳍片,同时使用了 4 根 6mm 热管贯穿散热片整体,帮助热量从 GPU 芯片和显存上尽快传递到散热鳍片上。
最棒的设计莫过于侧面的 8Pin 电源接口了,虽然这会导致需要更大的机箱才能兼容,但也使得机箱正面观感变得更简洁美观。
侧面接口部分,采用了目前高端显卡才配备的 3 个 DP1.4a 和一个 HDMI2.1 接口,可以支持最高 8K 的视频输出。
最后需要注意的是,MTT S80 是首批使用 PCIe 5.0 接口的显卡,也是一款支持 PCIe 5.0*16 接口的显卡,这意味着最好搭配比较新的主板才能实现最好的接口性能。所以摩尔线程京东旗舰店会选择以 2999 搭一个华硕 B660M 主板的方式进行售卖。
架构解析
摩尔线程 MTT S80 搭载了一颗基于 MUSA 架构的多功能 GPU 芯片“春晓”,相较于摩尔线程在今年 3 月发布的“苏堤”,“春晓”内置的四大计算引擎全面升级,可以同时支持图形图像渲染、8K 视频编解码、AI 训练和推理、通用计算、GPU 虚拟化、物理仿真等多种功能。
核心参数方面,MTT S80 基于台积电 7nm 工艺打造,拥有 4096 个 MUSA 核心,主频 1.8GHz、16GB GDDR6 显存,显存位宽 256bit,核心内集成了 220 亿个晶体管,内置 MUSA 架构通用计算核心以及张量计算核心,可以支持 FP32、FP16 和 INT8 等计算精度。
我们也对 MTT S80 进行了拆解,整张卡的拆解非常简单,拧开所有可见的螺丝就可以取下背板和挡板。内部做工是相当规整的,显存为 8 颗三星 GDDR6 闪存,每颗 2GB,组成了 16GB 的大显存。
核心代号为 SD102AA-500,基于摩尔线程的 GPU 芯片“春晓”打造。
MTT S80 最特别的地方在于,它是国内率先支持 Windows 环境和 DirectX 图形接口的 GPU。发布会上摩尔线程表示,目前 MTT S80 的 Windows 驱动已经内置了 MUSA DirectX Driver 模块,并已完成对《暗黑破坏神 3》、《英雄联盟》和《穿越火线》等十多款游戏完成适配,还有更多游戏可以运行,但还在适配过程中。不过至于是否真的如它所说,我们接下来就实测一下。
理论性能
首先我们进行一下理论性能测试。但在测试前,我们发现:MTT S80 的确是支持 Windows 和 DirectX 环境,在硬件层面能够支持 DirectX 11,但目前驱动还未完成全部功能模块的开发,因此目前只支持 DirectX 9,目前大部分的跑分软件都是基于 DirectX 11/12 的。所以常规的测试我们就不能进行了,只能另寻办法。
在 Windows 环境下有一款可以测试 DX9 性能的软件 ——Unigine Valley BenchMark 1.0,在这款软件中,MTT S80 获得了 2302 分的成绩。
我们在 Unigine 官网查询排行榜,可以看出在这个项目中 MTT S80 能达到 GTX 1060 6G 的水平。
像素填充率和纹理填充率也是评价显卡性能的重要指标。像素填充率指的是 GPU 在一秒内可以渲染到屏幕并写入显示存储器的像素数量,我们用使用 Fillrate Tester 实测 MTT S80 的像素填充率 FFP - Single texture 成绩为 188 GPixel / s。作为对比,RTX 3060 的像素填充率为 85.30 GPixel / s,RTX 3080Ti 的像素填充率为 186.5 GPixel / s。
纹理填充率指的是 GPU 可以在一秒内映射到像素的纹理贴图元素的数量。我们可以用 3DMark 06 来进行测试。最终 Multi-Texturing 最高为 170 GPixel / s,作为对比,RTX 3060 的纹理填充率为 199.0 GTexel / s。RTX 3050 的纹理填充率为 142.2 GTexel / s。之所以不同项目间差距悬殊,是因为目前驱动还未对 CPU 多线程进行优化,因此图形负载越重,MTT S80 表现就越好。一旦未来驱动优化完成,MTT S80 的性能表现会有进一步提升。
除了上面两款测试外,Windows 平台就没有太多跑分软件了。所以我们转战 Linux 平台,在 Ubuntu 下看看还能不能测出一些数据。我们试试看使用 clpeak,测试它的显存带宽以及单精度浮点(FP32)性能。最终测出来的数据如下:显存带宽最大为 365 Gbps、单精度浮点最大为 13.9 TFLOPS。
这大概是一个什么水平呢?以下是桌面端 RTX 3060 12G 的理论性能,MTT S80 的显存带宽和浮点性能都比 RTX 3060 略高一点点。
前面我们有提到,MTT S80 是首款支持 PCIe 5.0 的国产显卡,因此我们也测试了一下它的 PCIe 带宽,我们在 Ubuntu 下使用 OCL Bandwidth Test 进行接口上下行测试,实测上传最大带宽为 28G / s,下载最大带宽为 32G / s,这个速度是目前大部分主流 PCIe 4.0 显卡的两倍。可以说 MTT S80 是一张“战未来”的显卡了。
从上面我们的测试来看,MTT S80 在不考虑环境兼容性的情况下,纯理论性能可以做到 RTX 3060-RTX 3060Ti 的水平。而在 Windows 环境下,由于驱动对 DirectX 和 OpenGL 环境还在努力适配,因此不同软件中的性能差距很大。可以说摩尔线程 MTT S80 这次的硬件水平是相当在线的,驱动适配虽然暂时跟不上主流水平,但也为国产显卡开了一个好头。
游戏体验
前面我们有说过,MTT S80 是首款支持 Windows 和 DirectX 环境的国产显卡,那么它的实际游戏体验怎么样?前面我们有提到,MTT S80 暂时只支持 DirectX 9 环境,所以我们只能选择一些比较老,但是受众广泛的游戏来测试。以下游戏我们均开到 1080P 低画质运行。首先是《英雄联盟》,可以满足电竞级显示器畅玩。
《QQ 飞车》会锁 30 帧,自然是可以畅玩。
《穿越火线》的平均帧数高达 180 帧,完全可以流畅游玩。
《暗黑破坏神 3》是摩尔线程在发布会上演示的游戏,我们实测下来也确实可以满足 90-100 帧左右流畅游玩。
《我的世界》也得到了适配。但笔者发现网易版是打不开的,微软版可以直接打开,但帧数在平均 40-50 帧左右,不算很流畅,但已经可以玩了。
最后我们测试一下《CS:GO》,这款游戏玩起来还是很流畅的。我们运行 Benchmark 可以达到 213 帧左右的平均帧数。
从上述游戏的适配情况可以看出,摩尔线程目前的思路是优先适配那些受众广泛的国民级游戏,来提高国产显卡的接受程度,然后再回头去适配那些精品的小众游戏,这样的发展思路无疑是正确的。
视频编解码
对于一款家用显卡来说,不仅仅要能玩游戏,更要有出色的视频编解码能力。在发布会上摩尔线程表示,MTT S80 不仅支持 H.264、H.265 (HEVC),还加入了最新的 AV1 编解码能力,并有三个 DP 1.4a 接口和一个 HDMI 2.1 接口,每个接口均可输出 8K、4K 画面。
笔者首先尝试在油管打开一个 4K 的在线视频,观感是非常流畅的,没有遇到编解码不畅带来的卡顿。从控制面板中可以看到,MTT S80 也被正常调用进行 GPU 加速了。
那么它的视频编解码性能和效率究竟如何呢?我们需要回到 Linux 环境下,使用 ffmpeg 工具调用 vappi 的硬件编解码加速接口,选择不同格式的码流来进行测试,从我们的测试结果看,可以正常并行解码多路 H.264、H.265、VP9 和 AV1 等格式的视频,并且可以实现多路 H.264、H.265 的并行编码,以及多种格式间的视频转码。
我们准备了一个 1080p 的视频 YUV 数据,采用 H.265 进行多路编码,为了尽量增加编码器的压力,测试时采用 9 路编码并行,从测试结果可以看到每路的编码的帧率为 183fps,总体性能超过 1080p1600fps。
另外我们也对解码的性能做了些测试,多路压测解码 1080p 的视频时,总帧率也可以超过 1200fps。如下是 VP9 格式的 1080p 视频并行 10 路解码时的单路性能,可以看到帧率为 122fps。
可以说,MTT S80 的视频编解码性能是在线非常强的,硬件能力上已经打好了基础。对于大部分内容消费者们来说,买回来就可以直接用,看 4K HDR 视频也毫无压力。对于视频创作者们来说,MTT S80 硬件的编码能力也是很强的。但目前暂时没有剪辑软件适配。据摩尔线程内部产品人士的反馈,目前他们正在积极与国内外视频编辑类软件进行驱动和 API 适配,希望未来可以逐步满足消费者视频编辑的需求。摩尔线程能与一些国产剪辑软件一起,推进剪辑软件的适配。
AI 与计算
得益于全功能 MUSA 架构,MTT S80 还可以应用在 AI 训练方面,比如开发者可以通过 MUSA 软件栈将现有 AI 模型简单、快捷的迁移到 MTT S80 上;兼容性方面,MTT S80 兼容 PyTorch、TensorFlow 等多种主流深度学习框架,并实现了对 Transformer、CNN、RNN 等数十类 AI 模型的优化。
前面我们的测试中,MTT S80 的单精度浮点性能很强,因此在很吃单精度浮点性能的 AI 高精度推理上能展现强大的性能,满足对数据计算精度要求极高的场景,如医疗、金融等应用领域。比如 MTT S80 特别适配了医疗领域 AI 开源框架 MONAI,实现多种任务的高精度推理。
最大的黑科技还是“CUDA on MUSA”。为了降低用户的迁移成本,摩尔线程专为使用 CUDA 语言的用户开发了一套 CUDA ON MUSA 的兼容方案。基于摩尔线程提供的 porting 工具,通过编译与运行两步就可以让 CUDA 源码运行在摩尔线程 MUSA 架构 GPU 上。
总结:国产显卡的一大步
从笔者今天的评测中能看出,MTT S80 的硬件性能已经达到了主流甜品级的水平,这无疑是整个国产显卡行业的一大步。但最大的难点还是在于后续如何开发驱动程序,由于计算机图形的专业性非常强,全球能够懂得开发 Windows 驱动的人本来就少,其中大部分都集中于西方国家,在中国的专业人士屈指可数。处于初创阶段的国内 GPU 企业需要快速推出市场化的 GPU 产品,但面临的难题在于背景是芯片设计、底层驱动开发等关键领域人才匮乏、团队缺少磨砺。所以开发通用 GPU 绝非易事。
即便是做了十几年核显,市场占有率第一的 intel,在进军独立显卡市场时也遇到了驱动开发的挫折,更何况是对于一个初创 2 年的新玩家呢?国产 GPU 想要做到对旧有软件生态的兼容,无疑是一个漫长而艰难的过程。我们不得不承认,自主创新是一条非常艰难的路,但也是一条不得不走的路。最近美国一纸禁令,英伟达就不得不对中国断供指定型号的 GPU 芯片,未来会发生什么样的摩擦我们更是难以想象,所以我们必须做好充足的准备。
但我们今天也有幸看到,摩尔线程迈出了兼容主流平台的第一步,就我们手上的这个 MTTS80 来说,对于大部分轻度使用的消费者们,买来直接插在 Windows 电脑上就可以用,看看视频打打 LOL 啥的也没问题,这无疑是值得庆幸的。但我们也应当理性看待,不能指望摩尔线程一步登天,直接做出主流级别的产品,因此笔者在评价摩尔线程 MTT S80 时,也给予了最大的鼓励与宽容。当然,还是希望摩尔线程能尽快推动各类游戏和应用的适配,充分释放这颗强大的核心,回应整个国产行业的期待。