中国超算行稳方能致远

2019年06月20日 09:31:55
来源: 中国科学报 作者: 赵广立

  当地时间6月17日,新一期(第53届)全球高性能计算机TOP500榜单作为国际超算大会(ISC19)的重头戏在德国法兰克福发布。昔日的最快超算、来自中国的“神威·太湖之光”和“天河二号”虽然被美国新升级的“顶点”和“山脊”抢去冠亚军,但中国大陆仍以219台超算上榜的总数蝉联份额第一。

  这成为了国内各路媒体报道的标题。然而,在当天的TOP500超算榜单发布中,劳伦斯伯克利国家实验室超算科学家、超算TOP500榜单联合创始人埃里奇·斯特罗迈尔(Erich Strohmaier)在分析过这份榜单的TOP50和TOP100之后,留下了一个问题,引起了在现场的钱德沛、卢宇彤、张云泉等中国超算专家的关注。

  斯特罗迈尔的问题是:“中国是不是超算强国?”

  中国超算不够“超”?

  斯特罗迈尔提出问题的出发点在于,榜单上的中国超算好像不那么“超”——“在全球超算TOP100之中,中国仅有9台设备上榜”“在TOP50的超算设备中,仅有1台来自中国的商用系统”。

  反映在整个榜单上,美国116台超算占据了全榜单38.4%的计算性能,而中国大陆219台超算所占的计算力只有不到30%。

  “在TOP500中我们数量最多,但在性能方面落后美国;而在TOP50之中,我们无论在性能还是数量上,都远远落后于美国、日本甚至欧洲的几个国家。” 在由中国超算厂商中科曙光举办的“超算之夜”活动上,中山大学数据科学与计算机学院院长钱德沛就这一数据评论道:“这反映了中国超算的一个问题:和国外相比我们的应用类型、领域宽度等还有差距,中国超算的任务还很艰巨。”

  担任本届ISC19大会程序主席的国家超级计算广州中心主任卢宇彤也关注到这一细节。在接受《中国科学报》采访时她表示:“TOP50的超算设备中仅有1台来自中国的商用系统”,就是说在大中型超算应用领域,中国的高性能计算厂商还没有安装一些大规模系统。

  “中国生产高性能计算机的能力很强,可以说超过了美国,但最尖端的还要差一些。TOP500榜单中中国数量最多,但不排除有厂商拿一堆小机器去充数。如果打榜的测试基准发生改变——这也正是组委会在考虑的问题——这些小机器能否上榜还是未知数。”在展会现场,一位超算专业人士告诉记者,在超算的金字塔尖,依次是美国、欧洲、日本,然后才是中国。

  “这些国家的整体实力在中国之上?”面对《中国科学报》的提问,这位专家的回答是:“第一梯队中,我们还是弱一些。”

  硬件、软件都要“赶”

  如果把高性能计算机“拆开”看,中国超算的弱势就更加一览无余。

  首先从驱动计算最关键的部件核心处理器来看,全球最快的500台超算中,有488台设备采用的是美国公司生产的芯片,其中芯片霸主英特尔的处理器出现在478台设备中,另有7台超算系统选用了IBM Power系列处理器、3台系统选择了AMD处理器;另外,全球超算TOP500名单上共有133个系统采用了加速器或协处理器技术,其中的122台使用的是美国英伟达不同型号的GPU处理器。

  另外,在高性能计算机所需的存储、通信等的高端核心芯片的选用上,中国超算还没有多少可匹配的国产化产品的选择。

  “中国的‘神威·太湖之光’‘天河二号’等高性能计算机在核心处理器的选择上分别采用了申威、飞腾等国产芯片,总体而言,差距已经在缩小。”卢宇彤对记者说。

  中国超算在软件方面的短板更加明显。“中国超算软件包括基础软件和应用软件,对国外商用软件的依赖程度非常大。”中科院软件所一位要求匿名的研究员告诉《中国科学报》,软件上的短板有很多因素,其中“重视不够”是重要原因之一。

  “与美国相比,我国超算设备的采购机制还不完善。”在ISC19展会上,中科曙光高性能计算产品事业部首席科学家吉青告诉《中国科学报》,美国的超级计算机经费一般分为三部分:假设硬件设备需要3000万美元,那么他们还有接近3000万美元支撑所有相关人员在其上开发相关软件和应用;另外还有一笔经费用于支持其他可能会用到的技术研发,“这种资金投入相对来说更为合理。”

  记者就这一问题在采访卢宇彤时得到了同样的答复。她对《中国科学报》表示,中国在超算软件和应用开发上需要“与硬件开发相匹配的投入”。

  从超算到超算能力

  正如中国超算在TOP500榜单中的表现备受关注一样,在ISC19的展会上,中科曙光、联想、浪潮、华为等中国超算厂商也非常吸睛。记者在中科曙光展台注意到,有不少国外友人“组团”前来参观曙光今年在展台上展出的“身高”2.6米的新一代硅立方高性能计算机,以及它所使用的曙光第四代液冷技术产品——全浸没式相变液冷散热系统。据介绍,利用该技术,系统的电能使用效率(PUE)值可降至1.04以下,相当于40瓦的功率冷却1000瓦的设备,而传统的风冷系统需要500~1000瓦。

  “以前都是我们组队去看别人,今年我们都没机会离开展台,有许多机构来看我们的。”吉青对《中国科学报》说,外国友人向她提出的问题涉及到高性能计算机的方方面面,除了液冷技术,还包括能效比、通用性、网络结构、运维管理,等等。

  “每回答一个问题,都代表着我们在这个领域的能力,这也是新一代‘硅立方’要展示的内容——中国厂商的超算设计能力和用好超算的能力。”吉青说,高性能计算机不仅是国之重器、超级计算工具,还是实验最先进计算技术的平台。因此,只有高性能计算机做到最好,才能支撑最“上乘”、最“高大上”的应用,才会有更好的人工智能、精准医疗、气象模拟和预报。

  以曙光为代表,中国超算厂商正努力做到这一点。比如,曙光在新一代硅立方高性能计算机的架构上选择了可广泛兼容的异构结构,用户可以根据所需选取不同的处理器和加速器;在通信方面支持业界主流的胖树拓扑和6D-Torus高速网络技术,力求系统网络性能的高带宽、低延时;曙光还成立一支专业队伍组建“EasyOP在线运维平台”,在提供超算用户7×24小时的PaaS级运维的同时,还可根据用户不同应用定制、分配甚至出售超算服务。

  “只有把高性能计算机的每一个环节都做好——搭好硬件、做好软件、做好管理和运维,才能有最好的超算。”吉青说,这也是中科曙光发展超算的理念,行稳方能致远。

  卢宇彤也告诉记者,中国超算的应用市场广阔,仅“天河二号”注册用户就有3500多个,平均负载率在75%以上。而且,随着超算应用越来越复杂,系统也会变得越来越复杂,超算厂商和应用科学家将逐渐形成为一个整体来共同构建超算系统。

  “我们有个提法叫做‘全软件栈/系统的协同设计’,它要求系统设施提供方和应用方互相配合,系统去适配应用,应用也要适配系统,通过协同设计,建设用户和系统之间的桥梁。”卢宇彤告诉记者,未来超算面貌可能发生的变化,对于中国超算而言既是挑战也是机遇。

  吉青认为,通过协同攻关,中国超算有望实现从超算(Super Computer)到超算技术能力(Super Computing)的跃迁。

  当地时间6月19日,中科院计算技术研究所研究员、国家超算济南中心主任张云泉在随中科院代表团访问斯洛文尼亚共和国卢布尔雅那大学的行程中,带来一个好消息:“欧洲可能不会再坚持用Arm处理器研发欧洲E级系统,甚至不排除由中国为欧洲建设E级超算。”

  “如果实现,将是中国超算走向世界的一个里程碑。”张云泉对《中国科学报》表示,这代表着中国超算的研发、设计及产品、服务能力逐步得到国际的认可。

标签 - 超算,核心处理器,风冷系统,液冷散热
网站编辑 - 孙思清