工作器CPU边界抓续多年的中枢数目大战,被一举闭幕了!
英特尔最新发布的至强® 6 性能核处理器(P-core系列),卓绝了已往单一维度的竞争,通过“升维”界说了新的游戏次序:
在已往,CPU升级换代时时要在单个芯片上集成更多的中枢,但这未免会受到工艺和芯片尺寸的限制,更别提与IO和内存的匹配费劲。
这一次,至强® 6 性能核处理器剿袭了计较芯片单位与I/O芯片单位解耦的分辩式模块化筹谋,不错生动组合不同数目的计较单位,收尾中枢数目的膨胀及内存和IO的同步强化,保证更优的合座性能和能效。
用最直不雅的款式感受一下:
2023年12月15日,英特尔数据中心与东谈主工智能集团副总裁陈葆立从裤兜里掏出第五代至强® 可膨胀处理器,还独一64个中枢。
2024年9月26日,如故陈葆立,不异从裤兜里掏出至强® 6 性能核处理器,却径直翻倍到128中枢。
两款处理器外形大小相似,都能松驰放进口袋,但性能却发生了质的飞跃。
具体来说,刚刚登场的是至强® 6性能核处理器大眷属中的时尚+顶级战力——英特尔® 至强® 6900P系列。
领有多达128个性能核和504MB的超大L3缓存,更大、更宽的内存补助,更多、更快的IO才调。格外适用于万般数据和计较密集型应用任务,比如科学计较、海量数据处理,还有AI。
看到这里,可能好多东谈主会有疑问:你们又要说用CPU跑AI?是GPU它不香了么?
NoNoNo,咱们是思说:有了这款CPU,你的GPU或其他的AI加快器,会更香!
谈到这个话题,就要先说说AI工作器。
在生成式AI应用百花皆放确当下,AI工作器的紧迫性可谓是不言而谕,非论是关于大边界的熟习、推理,亦或是RAG等任务,都对其建议了更高的要求。
也正如详尽商场量度数据从侧面反映出来的那般:
咱们都知谈AI工作器里GPU或AI加快器很紧迫,却很容易漠视其中CPU的作用。一个委果为AI工作器或AI数据中心基础才略筹谋的出色的CPU,应该是什么样的?
英特尔® 至强® 6 性能核处理器,不错说是给出了一个正解。
外媒致使评测事后,对英特尔这次的新CPU赐与了极高的评价:
嗯,用华文来说的话,就是英特尔至强,这次是简直至强(达到最强)了。
那么英特尔® 至强® 6 性能核处理器是怎么解锁这种认可的呢?
至强,缘何至强
着手要说的是算力。
英特尔® 至强® 6900P系列家具这次最亮眼的128核(三个计较芯片单位),这就是它看似相宜此前游戏次序的一大本事亮点。
通过中枢数目的不同胪列组合款式,至强® 6 性能核处理器不错应付不同的场景来提供不同中枢的型号,除了最高128核的家具系列(6900P)外,还有最高86核(2个计较芯片单位),最高48核(1个计较芯片单位)和16核(1个计较芯片单位)的家具系列。
用来作念这种胪列组合的模块中,计较芯片单位剿袭的是Intel 3制程,包含一气象网格、中枢、缓存、内存阻挡器等,不错保证数据传输的一致性。
I/O芯片单位则是剿袭Intel 7制程,包含UPI、PCIe、CXL和加快器引擎等。
不同于第五代英特尔® 至强® 家具,至强® 6是将I/O和计较两个单位进行了解耦,不仅易于作念核数的膨胀,还成心于考证、重迭和生动使用。
除此以外,英特尔® 至强® 6 性能核处理器的亮点还包括:
6400 MT/s DDR5
8800 MT/s MRDIMM内存
6条UPI 2.0链路;速率高达24 GT/s
96条PCIe 5.0/ 64条 CXL 2.0通谈
L3缓存高达504MB
艳母播放补助FP16数据面貌的英特尔® AMX
接下来要说的是存力。
至强® 6 性能核处理器倜傥此前游戏次序的亮点就藏在其中。
它同期补助了更快的DDR5内存(6400MT/s)和更“宽”的MRDIMM内存(8800MT/s)。
仅把前者替换成后者,就还是能让科学计较和AI场景的多项任务提高7%-33%不等了。而且比较此前至强® CPU Max剿袭的HBM,MRDIMM内存的引入,不仅带宽和速率上风更昭彰,它与CPU解耦的型态,也更利于用户的生动采购、成就与升级。
存力除了内存自己的性能,还包含CPU与内存之间的互连本事,至强® 6导入了最新的Compute Express Link 2.0 (CXL 2.0) 。
CXL 2.0补助多种开荒类型,且可向后兼容,收尾对内存和存储开荒的生动膨胀。
补助链路分叉、更强的CXL内存分层补助,以及以受控热插拔的款式添加/移除开荒,为畴昔的数据中心架构带来了更多可能性。
更值得一提的是至强® 6独占的“Flat”内存模式,CXL内存和DRAM内存被视为单一的内存层,让操作系统不错径直拜访这一斡旋的内存地址空间。
这样的分层照管不错确保最大限制地提高内存使用效力,况且收尾行使好CXL内存膨胀而无需修改软件。
如斯这般能对内存速率、带宽、容量和可膨胀性全面兼顾,还是变成了至强® 6 性能核处理器独树一帜的竞争力。
具体到工作器筹谋上,CLX2.0不错补助每机提供8TB内存容量膨胀,同期提供384GB/s的内存带宽膨胀。
天然,当作CPU的至强® 6 性能核处理器并莫得健无私方的本份,把存力与算力的硬标的上风集中起来,升沉成委果的上风,才是它被看好的底气。
在算力方面,除了更多内核,它还有内置加快器与教导集更新带来的加成。
主攻AI加快的英特尔® 高档矩阵膨胀(Intel® AMX)新增对FP16数据类型的补助,现已全面障翳 int8、BF16和FP16数据类型。
其在每个内核中的矩阵乘加(MAC)运算速率可达 2048 FLOPS(int8)和1024 FLOPS(BF16/FP16),能大幅提高 AI 推理和熟习性能。
英特尔® 高档矢量膨胀 512(AVX-512)虽然是员宿将了,但在取得如斯丰沛的内核资源补助后,也依然是科学计较、数据库和 AI 任务中的矢量计较担当。
这些加快器的升级与焕新带来的效力就是下图这种多负载性能发扬边远倍增的自得,在AI边界,尤其是在Llama2-7B上的提高径直达到了前一代家具的3.08倍。
终末在硬件增强的安全特点方面,英特尔早期的决策为SGX,但从第五代至强® 开动新增了TDX决策。这些看似难以通过Benchmark数值来阐述自身价值的本事,实则不可或缺,是确保要害数据和应用更为安全可靠的压舱石。
而安全,恰正是现在AI数据中心或智算中心这种波及海量数据、相干万千神秘和秘密的环境中较少说起,却最应补足和自若的一环。
说了这样多,如若要用一句话回想至强® 6 性能核处理器,尤其是6900P系列家具的定位,那就是“更强通用计较,兼顾AI加快”了。
那么新处理器用体都有哪些用法,发扬又怎么呢?
还请链接往下看。
万能型CPU:加快AI推理,统辖异构计较
着手,至强® 6 性能核处理器不错作念“独行侠”,径直加快AI推理,助力AI应用普及。
用CPU作念AI推理加快,其意旨并非在于与GPU或其他专用加快器竞争极致的速率或效力,而是要在一些资本、采购、环境等条目受限的情况下,借助CPU部署更平日、东谈主才储备更塌实和应用更方便的上风,让AI大略更快、更灵验地落地。
带着这样的合座标的,英特尔在软件生态和职责负载优化方面进入了大批元气心灵,以确保用户大略充分泄露至强® 6 性能核处理器的后劲。
举例,英特尔与TensorFlow和PyTorch等主流深度学习框架进行深度合作,将针对英特尔CPU的优化集成到官方刊行版中,从而使得在英特尔CPU上运行深度学习模子时,性能取得权贵提高。上文提到的Llama2-7B收获即是这些勤恳的效力之一。
另外,至强® 6 性能核处理器还不错作念“调换官”,强化AI系统合座实力。
这其实是好多用户更为熟悉,亦然至强® 6性能核处理器更主打的应用款式,所谓“调换官”,另一个称号就是机头(head-node)CPU或主控CPU。
如若将至强® 6 性能核处理器用作AI工作器的机头CPU,那么其在算力(更强的单线程性能)、存力(对MRDIMM内存和CXL内存膨胀才调的补助)以及 I/O(更多的PCIe 5.0通谈)等方面的上风和潜能就能愈加充分地泄露和开释出来。
使其大略与GPU或专用的AI加快器高效配合,出色地处理数据预处理、数据传输共享和搀和职责负载。
咱们率先的设问,至此终于免强出了一个更为完好意思的谜底,即为何至强® 6 性能核处理器大略被称作AI工作器或AI数据中心的“严选”,致使是优选CPU ?
这正是由于它既大略一手一足地加快AI推理,又不错居中调解以提高异构系统的合座性能输出。
更无须说,它还大略兼顾稠密传统但不异不可或缺的应用负载,举例前文说起的科学计较和数据库,以及高性能云基础才略构建等任务。
以Flatiron Institute的案例来说,当作一家科研机构,他们对科学计较有着激烈的需求。通过测试得知,至强® 6 性能核处理器在常见科学计较负载上发扬优异。
他们还以为对MRDIMM内存的补助将进一步破损传统DDR内存的性能瓶颈,鼓励数据密集型科学发现。
在本次至强® 6 性能核处理器的发布会上,英特尔也展示了土产货数据库软件合作伙伴——科蓝软件的效力。
英特尔商场营销集团副总裁、中国区&行业惩办决策和数据中心销售部总司理梁雅莉在先容生态系统补助情景时示意:
值得一提的是,在她共享中出现的中国合作伙伴数目稠密且都是各边界的中枢力量,英特尔虽然在家具研发上有了更多改进,但在买卖模式上仍然格外依赖灵通架构平台之上的产业协力。
十数家OEM、ODM、OSV和ISV在至强® 6 性能核处理器发布时同步推出新家具,以及多家云工作提供商的补助,在英特尔看来,才是新品委果走近用户和价值放大的基础。
从前边列举的稠密数据和用例不错看出,在现时AI应用加快落地、新推理计较范式和合成数据等趋势的鼓励下,AI算力需求越来越提神推理和复合职责负载。
在这之中GPU或专用加快器天然紧迫,但CPU当作悉数系统的“调换官”,毫不成成为短板。
众人需要委果兼顾通用计较,以及AI工作器及AI数据中心场景的CPU家具。它不仅能补助平日的第三方GPU及AI加快器,与它们组合变成雄壮的异构计较平台,还能在其中补足GPU或专用加快器障翳不到或不及的场所,为更万般和复杂的场景提供生动的算力遴荐,并增强悉数AI平台的清醒性、安全性和膨胀性。
英特尔® 至强® 6 性能核处理器的出现,就为AI计较带来了这样一个全新的支点。
(梦晨 金磊)