影视聚合站 科技 文章内容

位列三甲!中国获戈登·贝尔奖后,华为存储再次向世界证明超算硬实力

发布时间:2021-12-03 14:46:49来源:机器之心

机器之心原创

作者:吴昕

继荣获2021戈登·贝尔奖之后,中国超算再传捷报:根据近日发布的全球高性能计算存储系统排名IO500榜单,Top3均为中国自研系统,其中华为独占两席。算力、存储和应用开始协同发展,中国超算「造强用弱」的局面正在发生实质性的转变。

数据被视为新时代的石油,不同的是,人类有多焦虑有限的石油何时被耗尽,就有多烦恼无限的数据该如何被保存。

作为数据处理、分析和应用的基础共性支撑,存储始终是计算机系统的性能瓶颈所在,高性能计算(HPC)领域尤其。

中国超算一直因「造强用弱」而饱受非议,这也是为什么近年来国内超算业界对Top500榜单排名表现得云淡风轻,而对再获戈登·贝尔奖的消息却倍感振奋——尽管困难重重,计算正向着百亿亿次级(E级)稳步迈进,应用也开始跟了上来。

但是,关键的存储却少见踪影——直到上个月为止。

2021年11月,最新的全球HPC存储系统性能排名IO500榜单在SC21上公布,Top3都是中国自研系统,而且其中两台都是华为已经大规模商用的系统。

根据最新发布的全球HPC存储系统性能排名IO500榜单,Top3均为中国自研系统,其中华为独占两席。来源:io500.org

其中,华为OceanStorPacific系列存储(HuaweiHPDALab),以2395.03的总分名列第二。该系统采用NVMeSSD全闪存固态硬盘,基于自研的OceanFS高性能并行文件系统,在10节点上实现了337.75GB/s(314.56GiB/s)的带宽和超过1800万IOPS的元数据性能。

这是什么概念?

还记得45TB的GPT-3原始训练数据集吗?

不等你泡好一包方便面就已经传完。

不鸣则已,一鸣惊人

大数据、云存储和人工智能的快速发展,不仅增强了对高性能存储系统的需求,也对I/O支持应用的性能、数据可用性等方面提出了很多新的挑战。

为促进领域更好发展,HPC存储专业社区TheVirtualInstituteofI/O,2017年11月制定并提出了一套全面衡量HPC存储系统的基准测试,也即IO-500,旨在反映HPC存储系统的真实性能,并要求所有测试过程细节包括参数配置全部公开,以便用户了解每个存储系统的优势及缺点。

很快,IO-500便得到了全球HPC存储业界的积极响应,成为领域事实上的权威标准。国内超算界的多位专家也向机器之心表达了他们对IO500榜单的重视。

IO-500基准测试主要考察两大关键指标——带宽(GiB/s)和元数据性能(k-IOPS)。前者是大型文件持续高速传输的保证,后者对不同类型数据的高效读写十分关键。

计算总分采用几何平均数的方式,消除个别极高或极低指标的影响,因此更加均衡的系统能够获得更高的分数。换句话说,IO500榜单总分越高,HPC存储系统的综合性能就越好。

为了展现实际应用场景中的性能,IO-500中还有一个「10节点基准测试」,考察在客户端数量不超过10的情况下,被测系统的带宽和元数据性能。值得一提的是,华为OceanStorPacific系列存储在10节点榜单上也名列第二(HuaweiHPDALab)。

排名第二的华为OceanStorPacific存储系统IO-500测评具体指标,可以看出各项性能均衡。来源:io500.org

性能提升的技术根源:软硬件协同优化,面向下一代高性能数据分析

IO500榜单中值得关注的一点是,并没有多少Top500超级计算机的身影。

例如现今世界最快的超级计算机日本的富岳,前几次IO-500测评结果不甚理想,这次干脆没有参加测评。

这里面当然有包括超算战略在内的考虑,比如中国这次就没有将新一代神威超算系统提交参与Top500排名。但IO500与Top500之间差异,体现出了当前算力与存储的不均衡。

原因也不难理解,随着超算与大数据、人工智能的融合,HPC正加速向高性能数据分析(HPDA)转型。HPDA应用的特点是数据量大且经常出现非结构化数据、时效性强、算法复杂,因此其I/O模型与传统HPC负载有很大差异。

国防科技大学计算机学院院长、银河系列高性能计算机、天河一号和天河二号的副总设计师卢凯曾在CCFHPCCHINA2020指出,传统的并行文件系统并不适合最新的存储硬件技术,POSIX提供的强一致性在很多情况下实际上严重影响了存储系统的性能,属于「大材小用」。

OceanStorPacific系列存储是华为2020年5月发布的产品,专门面向HPDA应用场景,针对HPDA负载「数据密集型」的特点,在硬件和软件方面做了一系列优化。

其中配置最高的一款「OceanStorPacific9950高密性能型」,官方称「5U8节点,80盘位NVMeSSD,提供160BG/s带宽和200万IOPS」,对比这次IO-500基准测试结果,可以说是保守宣传了。

就在今年6月,权威测评机构ESG实验室对华为OceanStorPacific系列存储做了全面的技术测评,实测验证了稳定高性能、多协议融合访问、混合负载访问、超高密设计等指标,并对其性能、成本和可靠性给予了充分的肯定。

不要忽视「可靠性」,根据HPC市场分析机构HyperionResearch的调研,企业在采购或选择HPC系统时,通常算力第一、成本第二,近年来存储虽然得到更多关注,但企业往往忽视后期运维,而由于停机造成的损失——哪怕只有几小时——动辄上万美元。

保存数据就是保存价值,E级计算需要与之匹配的存储设施

目前,华为OceanStorPacific系列存储已用于科研、油气勘探、自动驾驶、卫星测绘、生命科学、工业CAE、超算等多个场景,满足不同HPDA应用对数据传输和读写的不同需求。

华为数据存储与机器视觉产品线总裁周跃峰曾指出,目前世界上只有不到2%的数据得到保存,而在这些被保存下来的数据中仅有10%得到应用,海量的数据未被存储和应用是数字化经济当中最大的问题之一。

由于存储受限,科研人员不得不经常考虑该保留哪些数据,删掉哪些数据。例如,CERN每次运行实验都会产生PB级的数据,而他们只存储写论文或实验报告所必需的内容,余下的全部删掉,因为光是保存前者就已经十分艰巨。

被删掉的数据就像灭绝的物种,失去了就永远回不来了。一同消失的还有蕴含在其中的价值。

建设超级计算机从来都不是为了追求极致算力——这是手段而非目的——而是为了计算那些现在还无法计算的问题。

但如果数据没被存储下来,计算从何谈起?

E级计算时代,新的HPC系统将承载更多类型的业务,面对更复杂的I/O模型,只有计算与存储协同发展,才能形成良好的高性能计算服务产业生态。

存储是确保数据在全生命周期内发挥价值的保障,HPC存储系统更是关乎国计民生与国家战略安全的关键信息基础设施。

根据IO-500基准测试指标,可以看出HPC存储性能还有很大提升空间。来源:io500.org

华为在2001年进入存储领域,从三五人的小团队和一台预研机产品,到如今在全球拥有12个研发中心、4000+研发人员、3000+专利,全面布局存储产品线。

最新的IO500排名没有辜负这20年的付出,但HPC存储的竞争才刚刚开始。

参考资料

WhitePaper:EstablishingtheIO-500Benchmark

卢凯,高性能计算机的存储优化:实践与经验,CCFHPCCHINA2020

ESGTechnicalReviewHuaweiOceanStorPacificHPDA,June2021

HyperionSC21MarketUpdate

DSC–AIforScience:FromAtomstotheCosmos,ArgonneNationalLaboratory,Nov.2021

UncoveringAccess,Reuse,andSharingCharacteristicsofI/O-IntensiveFilesonLarge-ScaleProductionHPCSystems,FAST'20

LarrySmarr,OnTheRiseofSupernetworkData-IntensiveComputing,SC21

10000字,致华为存储的18岁

©THEEND

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

免责声明:本站文章如有侵犯您的权益,请联系邮箱:kf#twz.ink(#换成@)进行处理。

© 2016-2021 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-1 )