计算机论文哪里有?本文重点研究了MCM-GPU架构中的访存通信挑战,旨在解决多芯片模块处理器中由于高并发访问带来的性能瓶颈。本文提出了一种模块间通信的自适应合并器,用于动态合并高局部性的内存请求,从而降低网络负载和通信延迟。
第一章 绪论
1.2 研究现状
本节从访存通信优化、互连网络优化、虚拟内存和缓存一致性优化等方向对近些年来针对MCM-GPU体系架构优化的工作展开梳理。在每个小节起始的地方,首先简要概述了传统GPU即单芯片GPU在该研究方向的工作,以便更好地展现MCM-GPU体系架构面临的新挑战。
1.2.1 访存通信优化
访存通信优化一直是传统GPU研究的重点。近几年来,Liu等人在ISCA2018上提出Page Address Entropy(PAE)地址映射机制[29],更均匀地把不同的访存请求映射到不同的存储控制器,有效降低了访存冲突。Zhao等人在ISCA2019和MICRO2020上分别提出了自适应的LLC设计和SelRep LLC设计[30, 31],可以根据程序的运行时特征,通过数据多份拷贝的方式自动平衡对LLC同一bank的访问冲突和提高LLC命中率,有效提高了LLC的访问带宽。Darabi等人在MICRO2022上提出一种新的硬件/软件协同设计技术Morpheus[32],该技术通过利用空闲GPU核的片上存储资源有效扩充了LLC的容量,降低了LLC的失效率。Zhao等人在ASPLOS2023上提出了非均匀带宽的LLC设计理念[33],通过设计近端和远端LLC满足了GPU对数据带宽的高需求同时显著降低了片上互连网络NoC的开销。
这些工作主要针对传统GPU即单芯片GPU的访存通信优化。与传统GPU相比,在MCM-GPU中,不同GPU芯片模块之间存在大量的访存通信。同时,相比于片上互连网络,GPU模块之间互连网络的带宽更低,延迟更高(例如25 Gbps/pin的带宽和20ns的传输延迟[34]),模块之间的通信严重影响GPU的性能。因此,如何优化MCM-GPU访存通信即降低多模块通信开销对于提高 MCM-GPU 的性能和效率非常重要。
第三章 多芯片模块处理器中模块间通信的自适应合并技术
3.1 研究动机
3.1.1 模块间网络瓶颈
MCM-GPU架构的出现旨在不断提升计算能力,但这种新架构也带来了挑战,特别是模块间互连网络的高延迟和有限的带宽。相比于单芯片GPU的高效通信,MCM-GPU在数据传输时存在明显的延迟。例如,从HBM堆栈移动数据到芯片边缘需要一定时间,跨越不同时钟域的转换也会增加延迟。此外,数据在芯片间传输时还需经历序列化和反序列化的过程,这进一步延长了数据传输时间。最后,模块间链路本身的设计也会带来固有延迟。
图3.1展示了模块间网络对性能的影响。图中x轴表示所选择的测试程序,y轴表示标准化的每周期指令数。基准设计的IPC被标准化为1,1x表示基准设计性能,1.5x表示网络带宽提高1.5倍后的性能,2x表示网络带宽提高2倍后的性能。不同颜色的柱状图分别展示了在不同网络带宽下,各测试程序的性能表现。
![]()
第四章 多芯片模块处理器中混合内存的页面分配策略
4.1 研究动机
4.1.1 内存系统的性能与成本困境
随着晶体管缩放因物理和经济限制而放缓,多芯片模块处理器作为一种有效的解决方案,满足了高性能计算和人工智能工作负载对计算能力日益增长的需求。MCM-GPU通过将多个较小的模块集成在一个封装内,提供了更高的并行性、改进的内存带宽和更好的能效。为了支撑这些高性能计算任务,HBM通常被应用于这些系统中,尤其在数据密集型应用中起到关键作用。然而,HBM的生产过程复杂,涉及到硅通孔(TSV)技术和硅中介层封装,这大大增加了制造成本。此外,由于引脚数量较多和互连密集,设计和组装过程也更为复杂,导致相较于LPDDR和GDDR等其他内存技术,HBM的成本更高。因此,如何在维持高性能的同时控制成本,成为了MCM-GPU系统内存设计中的重要挑战。
4.1.2 目前混合内存策略在MCM-GPU中的不适用性
在CPU领域,混合内存系统通过结合不同类型的内存,取得了性能和成本的平衡。常见的两种策略是缓存和平坦内存。缓存策略利用小型高速内存(如DRAM)暂时存储频繁访问的数据,减少对慢速内存(如相变存储器或闪存)的访问,从而提高系统性能。平坦内存策略则将整个内存层次结构视为一个统一的可寻址空间,允许操作系统灵活地在不同内存类型之间分配数据,提升了内存管理的灵活性和系统的整体性能。
4.2 混合内存感知页面分配策略总体设计
在这一部分,本文提出了一种混合内存感知的页面分配策略,该策略通过利用内存访问模式,最大化不同内存类型的带宽利用率。本文的策略是在MCM-GPU架构下实现的,如图4.3所示。该架构使用多个GPU模块构建一个更大的逻辑单一GPU,同时使用HBM和LPDDR构建混合内存系统,以在芯片成本和数据带宽之间取得平衡。通过这种架构设计,可以充分利用不同内存类型的优势,实现更高的性能和成本效益。平坦内存方案将内存访问均匀分配在HBM和LPDDR之间,这往往导致LPDDR达到其带宽极限,从而限制了HBM带宽的有效利用。这表明,要充分利用可用带宽,内存访问应按照HBM和LPDDR各自的带宽容量比例进行分配。
![]()
第五章 结论与展望
5.2 研究展望
在本研究中,我们发现了一些需要进一步探索和优化的方向。以下是针对本研究的三个主要工作提出的研究展望。
首先,针对AdCoalescer框架在MCM-GPU中的应用,我们发现尽管该框架能够有效合并高数据局部性的内存请求,但在请求返回给SM后,仍然存在一些相同地址的访存请求。然而,当前的合并表设计并不具备缓存数据的功能,这一设计选择主要是为了节约硬件资源。如果能够找到一种方法,将AdCoalescer与缓存机制相结合,实现性能和硬件开销的均衡,可能会带来新的性能提升。此外,随着每个模块中SM数量的增加,合并表的硬件开销也会显著增大。如果能够将SM进行分组处理,或许可以在降低硬件开销的同时,不仅保持性能,甚至进一步提升。这些方向的研究将为优化MCM-GPU的并行处理能力提供新的思路。
其次,针对混合内存管理策略的研究,目前我们主要关注HBM和LPDDR的带宽利用效率。然而,在应用程序内存占用非常大的情况下,HBM可能会先被用满,导致系统性能下降。因此,未来的研究可以进一步探讨在这种高内存占用场景下的内存管理策略,以确保系统性能的稳定性和高效性。通过深入分析和优化内存访问模式,可以在HBM和LPDDR之间实现更有效的负载平衡,从而提升整体系统的性能表现。
最后,面向MCM-GPU的片上互连网络优化也是未来研究的重要方向之一。随着计算任务对芯片算力需求的不断增加,多芯片模块架构中的芯片模块数量也在不断增加。从多核处理器(CMP)到众核处理器的发展历程来看,NoC一直是研究的重点方向,涵盖了网络拓扑架构、路由器微架构、路由算法、流控机制和性能建模等诸多领域。与传统芯片中的片上互连网络不同,众芯片模块架构中的互连网络是由单芯片模块内部的片上互连网络和各芯片模块之间的封装互连网络(Network-on-Package)组成的混合互连网络架构。
参考文献(略)