在近日举办的2021年英特尔架构日活动中,英特尔对外宣布了众多技术创新,包括两个全新设计的x86内核微架构,并推出代号为AlderLake的性能混合架构处理器,以及面向数据中心领域的下一代至强可扩展处理器SapphireRapids;GPU架构部分,英特尔也详细介绍采用XeHPG微架构的Alchemist游戏显卡,以及XeHPC架构的PonteVecchio等;当然英特尔也介绍了其在推动开放、规范、跨架构和跨厂商的统一软件栈oneAPI工具包方面的具体进展。
本次架构日所讲的内容可以称得上是干货满满,尤其是关于AlderLake处理器的介绍更是占了极大的篇幅,作为英特尔面向于客户端计算市场的下一代酷睿处理器家族,AlderLake耗时多年打造,结合了众多最新、最前沿的技术,被英特尔寄予厚望,很多喜欢尝鲜的DIY发烧友也对AlderLake新平台有极高的期待。
AlderLake基本特性速览
总的来说,AlderLake将隶属于英特尔第12代酷睿处理器家族,基于最新的Intel7制程工艺打造(此前称之为10nmEnhancedSuperFin),采用Hybrid性能混合架构设计,集成了两种重新设计的内核微架构——PerformanceCore性能核GoldenCove以及EfficientCore能效核Gracemont,二者结合并通过ITD硬件调度器进行合理调度,致力于在所有类型的工作负载中均带来显著性能提升与能耗改进。
AlderLake系列的TDP功耗范围从9W到125W,将覆盖超便携轻薄本、高性能游戏本、发烧级DIY台式机等所有类型的客户端PC设备产品线,此前IceLake和TigerLake无法做到这一点。具体来说AlderLake将提供三类产品设计形态:采用LGA1700接口代号为AlderLake-S的台式机处理器;移动端处理器代号为AlderLake-P和AlderLake-M,均为BGA封装。
具体规格方面,桌面版AlderLake-S将提供8个PerformanceCore性能核与8个EfficientCore能效核,共有24线程(EfficientCore能效核不支持超线程),以及30MB容量的非包含式三级缓存,并集成32EUXeLP架构核显。
面向于高性能游戏本的AlderLake-P采用BGAType3封装,最多能提供6个PerformanceCore性能核与8个EfficientCore能效核,XeLP核显规模则上升至96EU;并加入独立的图像控制单元,也延续了对Thunderbolt4控制器的集成。
至于面向轻薄、低功耗的轻薄本,英特尔则提供了更紧凑的高密度封装,最高可提供2个PerformanceCore性能核与8个EfficientCore能效核。
除了采用Hybrid性能混合架构设计之外,AlderLake还带来了其他新特性,例如支持最新内存和强大的I/O拓展。AlderLake采用了全新的内存控制器,除了支持传统的DDR4-3200和LPDDR4x-4266之外,也支持新一代DDR5-4800与LPDDR5-5200标准;除此之外,英特尔还表示AlderLake平台还会支持内存的动态电压频率缩放,并增强对内存超频的支持,此外考虑到JEDEC标准的DDR5普条参数方面并不好看,玩家也期待着更高频率、更低时序XMP3.0DDR5内存能够在年底随AlderLake同步发售。
I/O方面AlderLake同样做到了领先时代,CPU支持直连16条PCIe5.0+4条PCIe4.0,以及PCH部分引出的12条PCIe4.0+16条PCIe3.0。其中PCIe5.0相比PCIe4.0进一步拓展了带宽,16条PCIe5.0可达64GB/s。
由于AlderLake整体是一个非常复杂的芯片,为了应对这一可扩展架构的挑战,英特尔还设计了三种独立的内部总线,具体分为ComputeFabric计算内部总线,这类似于此前的RingBus环形总线,通过最后一级缓存将内核和显卡连接到内存,AlderLake可支持高达1000GB/s;此外I/OFabric总线速度最高可达64GB/s(对应PCIe5.0x16),MemoryFabric总线速度为204GB/s。
超出预期的能效核Gracemont,这个“小”核要比想象中要强大得多......
PPA是Performance(性能)、Power(功耗)、Area(尺寸)三者的缩写,而对于芯片架构设计来说,PPA是无法绕开的话题,是在设计架构时必须要考量的因素。在获得性能提升的同时,也对芯片面积和功耗做到合理控制,这也是很多架构师的目标。
AlderLake采用的EfficientCore能效核代号为Gracemont,英特尔表示Gracemont旨在面对当今多任务场景做到充分优化,提高了吞吐量效率并提供可扩展的多线程性能;在有限的硅片空间内实现强大的多核任务负载,并具备宽泛的频率范围。英特尔在架构日演讲中透露,Gracemont的设计目标是IPC赶上并超越此前的14nmSkylake内核,并实现能耗比的飞跃式提升。
为了实现这一宏大的目标,Gracemont在微架构层面做到了全面改进。Gracemont前端延续了Tremont的3+3设计,解码每个周期多达六个指令,同时保持能效。
而为了实现更准确的分支预测能力,Gracemont拥有5000个条目的分支目标缓存区;还将指令缓存提高到64KB,在不耗费内存子系统功率的情况下保存可用指令,做到进一步节省电力。
ROB乱序重排缓冲区部分,Gracemont从Tremont的208队列进一步提升到256队列,已经超越了Skylake和AMDZen2的224队列,与AMDZen3相持平。
Gracemont的后端做到了大幅升级,具备5组宽度分配、8组宽度引退、共有17个执行端口,具体来看提供4个整数ALU、2个载入AGU、2个存储AGU、2个跳转端口、2个整数存储数据、2个浮点/矢量存储、2个浮点/矢量堆栈、以及第3个矢量ALU等,并可以支持AVX指令集和VNNI人工智能加速。
内存子系统部分部分,Gracemont使用了双载入、双存储单元的配置,并且每4个Gracemont核心为一个集群,共享4MB二级缓存。
至于具体的性能与能耗表现,英特尔使用Gracemont对比Skylake,并放出了两组能耗曲线数据。首先是单线程性能,测试SPECrate2017int,在相同功耗时Gracemont有超过40%性能优势,或达到相同性能时只使用40%不到的功耗。
多线程对比则更为夸张,同样测试SPECrate2017int,4核心4线程的Gracemont对比2核心4线程的Skylake,能够在功耗更低的情况下同时带来超过80%的性能提升,而在提供同样的性能时,功耗则降低80%。
百尺竿头更进一步,无比强大的性能核GoldenCove
AlderLake采用的PerformanceCore性能核代号为GoldenCove,不同于WillowCove对SunnyCove微调缓存式的小幅升级,GoldenCove的变化非常巨大,官方宣传称GoldenCove的设计目标旨在提高速度,突破低时延和单线程应用程序性能的限制,以及更好地支持代码体积较大的应用程序。
为了进一步提高IPC,GoldenCove的设计宗旨是更宽、更深、更智能。微架构的前端解码器由4个增至6个,6µop缓存增至8µop。
ROB乱序重排缓冲区部分,GoldenCove达到了512队列,相比于SunnyCove和WillowCove的352队列增加40%以上,也是AMDZen3架构的2倍,仅次于苹果M1大核心Firestorm的630队列。
wideallocation分配由5路增至6路,执行端口由10个增至12个。具体到整数执行引擎部分,GoldenCove增加了第五个整数执行端口。
矢量浮点执行部分,虽然没有增加端口,但额外添加了新的FADD加法计算单元。
二级缓存部分,GoldenCove可配置每核心1.25MB或每核心2MB,其中面向消费级的AlderLake为每核心1.25MB,与第11代酷睿TigerLake的WillowCove相同。至于面向数据中心领域的SapphireRapids,则配备每核心2MB二级缓存。
具体的性能方面,英特尔表示AlderLake的PerformanceCore性能核GoldenCove是公司有史以来最为强大的x86内核微架构,对比第11代酷睿处理器桌面版RocketLake的CypressCove,两者运行在相同的3.3GHz频率上,测试SPECCPU2017、SYSmark25、Crossmark、PCMark10,、WebXPRT3,、Geekbench5.4.1等项目,GoldenCove的平均IPC提升可达19%。
再考虑到爆料中Intel7制程工艺(此前称之为10nmEnhancedSuperFin)已经逐步成熟,AlderLake的QS版就可以达到超过5.0GHz的睿频频率,因此当AlderLake上市后,将在单线程性能方面具有极强的竞争力,遥遥甩开AMDZen3,甚至面对AMD在2022年发布的Zen4也有一战之力。
展望未来,携手Windows11,AlderLake能开启PC体验的新时代吗?
AlderLake作为混合架构处理器,想要让两类核心的性能获得高效发挥,那必然离不开调度的支持。为使PerformanceCore性能核GoldenCove和EfficientCore能效核Gracemont与操作系统无缝协作,英特尔开发了一种改进的调度技术,全称为IntelThreadDirector(缩写为ITD),中文名“英特尔硬件线程调度器”,并通过与微软进行合作,优化ITD在Windows11上的性能表现。
英特尔也在架构日上透露了ITD对AlderLake的基本调度逻辑,PerformanceCore性能核的物理线程优先处理复杂的前台任务、为调度的第一优先级,然后则是EfficientCore能效核,最后才是PerformanceCore性能核的超线程......当然,英特尔也表示ITD具有动态性和自适应性,可根据实时的计算需求智能调整调度决策,致力于做到快速响应、高性能和低功耗的平衡。
PerformanceCore性能核GoldenCove、EfficientCore能效核Gracemont、ITD硬件线程调度器、Intel7(10nmEnhancedSuperFin)制程工艺、支持DDR5、PCIe5......作为首款性能混合架构,AlderLake堪称是英特尔众多新技术的结晶与完美释放;今年第4季度桌面版AlderLake-S将正式发售,而面向移动端的AlderLake-P/M也将在CES2022发布,让我们敬请期待!