根据美光的发布,美光和amd在奥斯汀建立了联合服务器实验室,以减少服务器内存验证时间,并在产品验证和发布期间联合进行工作负载测试。
目前,美光面向数据中心的ddr5内存和第四代amd epyctm处理器已经出货,并进行一些高性能计算工作负载的通用基准测试。
长期以来,超级计算机承担着高性能计算的工作量如此大规模的数据密集型工作负载,需要运行百万级并行运算的tb级数据,才能解决人类世界的难题,比如天气气候预测,地震建模,化学,物理和生物分析等
伴随着计算机体系结构的发展,这样的工作负载通常被托管在非常大的横向扩展高性能服务器集群中这些服务器集群需要最强大的计算能力,架构,内存和存储基础设施,以满足关键工作负载的可扩展性,低延迟和高性能要求可是,伴随着服务器cpu性能和吞吐量的不断提高,ddr4无法提供足够的内存带宽来满足不断增加的高性能内核
为了缓解这一瓶颈,美光ddr5内存与采用zen 4服务器架构的第四代amd epyc处理器相结合,使服务器cpu能够更好地匹配内存产品,满足数据密集型工作负载的性能和效率要求本站了解到,美光已经进行了业界最新的amd zen 4 96核cpu和美光ddr5的基准测试,所有结果都显示性能提升了2倍
stream1是一个常用的基准测试工具,用于测量高性能计算机的内存带宽,捕捉高性能计算系统的内存带宽峰值。
此工作负载使用的软件堆栈
alma 9 linux内核5.14
stream.f,2021年11月29日发布
测试设置
采用第三代64核3.7 ghz amd epyc处理器的ddr4系统,ddr4 3200 mhz系统2的rdimm内存槽已满,总计64gb。
ddr5系统搭载第四代96核3.7 ghz amd epyc处理器,ddr5 4800 mhz系统3的rdimm内存槽已满,共64gb。
试验结果
ddr 5系统每槽内存带宽翻倍至378gb/s。
这个结果意味着客户可以运行更大规模的人工智能/机器学习项目,或者使用ddr5增加的内存带宽来做更多的高性能计算。
本测试中使用的高性能计算工作负载代码针对天气和气候wrf模型在一些支持高性能浮点处理,高内存带宽,低延迟网络等的传统高性能计算架构中表现良好测试对象是美国大陆,水平分辨率为2.5公里
此工作负载使用的软件堆栈
alma 9 linux内核5.14
wrf 2.3.5安培,4.3.3
打开mpi 4 . 1 . 1版
测试设置
采用第三代64核3.7 ghz amd epyc处理器的ddr4系统,ddr4 3200 mhz系统2的rdimm内存槽已满,总计64gb。
ddr5系统搭载第四代96核3.7 ghz amd epyc处理器,ddr5 4800 mhz系统3的rdimm内存槽已满,共64gb。
试验结果
采用第四代amd epyc处理器的micron ddr5可以实现1.3567时间步/秒vs ddr 4系统的2.8533时间步/秒。
更快的速度意味着你可以使用更大的数据库或运行更多的模型来预测天气,从而提高预测的准确性。
openfoam是计算流体力学的开源高性能计算工作负载,广泛应用于多个行业,有助于缩短开发时间,降低成本从消费产品设计到航空航天设计,openfoam可以模拟不同应用中的物理交互,包括摩托车挡风玻璃湍流
在这个模拟中,openfoam可以计算摩托车和骑手周围的稳定气流openfoam可以根据用户指定的进程数量计算负载平衡,从而将网格划分为多个部分,分配给不同的进程足球网站的解决方案完成后,网格和足球网站的解决方案被重新组装到一个域中
此工作负载使用的软件堆栈
openfoam cfd软件,其中摩托车网格尺寸为600 x 240 x 240。
alma 9 linux内核5.14
打开mpi 4 . 1 . 1版
测试设置
采用第三代64核3.7 ghz amd epyc处理器的ddr4系统,ddr4 3200 mhz系统2的rdimm内存槽已满,总计64gb。
ddr5系统搭载第四代96核3.7 ghz amd epyc处理器,ddr5 4800 mhz系统3的rdimm内存槽已满,共64gb。
试验结果
测试结果显示,美光的ddr5产品组合将openfoam的性能提高了2.4倍openfoam是五大高性能计算软件平台之一,拥有庞大的开源社区这个软件在大学和r&d中心被广泛使用可以使用高带宽内存和内核密集的高性能cpu,实现高并行运算
cp2k是一个开源的量子化学工具,适用于很多应用,包括固态生物系统模拟cp2k可以为不同的建模方法提供一个通用的框架测试对象是水的密度泛函理论模拟箱包含6144个原子
此工作负载使用的软件堆栈
h2o密度泛函理论。nrep4和h2o密度泛函理论
alma 9 linux内核5.14
测试设置
采用第三代64核3.7 ghz amd epyc处理器的ddr4系统,ddr4 3200 mhz系统2的rdimm内存槽已满,总计64gb。
ddr5系统搭载第四代96核3.7 ghz amd epyc处理器,ddr5 4800 mhz系统3的rdimm内存槽已满,共64gb。
试验结果
结果表明,美光的ddr5产品组合将分子动力学性能提高了2.1倍伴随着内核数量和内存带宽的增加,这类工作负载的性能也会显著提高
摘要
目前只测试了少量的高性能计算工作负载,所以以上结果只是初步的将高性能和高带宽内存与最新的服务器处理器相结合,可以为高性能计算客户创造新的可能性
在stream benchmark测试中配置了1个具有25亿个向量的stream benchmark——它运行在单个amd cpu系统上。
2amd ddr4系统是64核amd epyc 7763处理器,ddr4—3200 mhz的rdimm内存槽满,总计64gb。
3amd ddr5系统是96核amd epyc 9654处理器,ddr5—4800 mhz的rdimm内存槽满,总计64gb。
4水平分辨率为12.5km conus的wrf在ddr4系统上运行929秒,在ddr5系统上运行287秒本次测试中,wrf配置为2.5km conus,测试结果为1.3567时间步/秒,而ddr4的运行时间为2.8533时间步/秒
5对于openfoam,运行了三种变体:
5a:1004040运行时,ddr4系统运行时间为1144秒,ddr5系统运行时间为478秒。
5b:1084646运行时,ddr4系统运行时间为1633秒,ddr5系统运行时间为698秒。
5c:1305252运行时,ddr4系统运行时间为2522秒,ddr5系统运行时间为1091秒。
分子动力学工作负载在ddr4系统上的运行时间为2519秒,在ddr5系统上的运行时间为1242秒。
。