新一期中国高性能计算机TOP100排行榜单如期在“2016年全国高性能计算学术年会”(HPC China 2016)上发布。中科曙光以34%的市场份额再次占得榜首;同时,在TOP10榜单中曙光占有4套系统,在TOP30榜单中曙光占有15套系统,均以近半数的绝对优势力压群雄。连续第八年蝉联中国高性能计算机TOP100市场份额第一。
经过20多年的发展,曙光的高性能计算已经形成了自己浓郁的风格。除了在包括计算、存储、网络等各个方面高性能计算的新技术的突破之外,曙光在深化应用融合方面已经卓有成效。正如曙光公司总裁历军所说,“曙光公司成立的初衷,就是要实现科技成果的产业化发展,将科学技术转化为生产力,推动国家各个产业的发展。通过曙光的努力,让高性能计算变得和我们的生活更加息息相关,让HPC应用更加大众化、普及化,是我们肩上的责任和使命。”
深化应用融合,推动HPC产业化
曙光公司高性能产品事业部总经理曹振南介绍说,近年来,曙光通过上下游合作伙伴将创新链与产业链结合,深入应用场景进行产品的优化和开发应用,有力地促进了HPC前沿技术成果向各个应用领域的转移转化。
“我们现在越来越注重高性能计算机与各个行业、领域应用的协同设计。针对某些行业和领域,我们会定制专用的高性能计算机。”曙光公司高性能产品事业部副总经理李斌说。
在应用方面,从“地球数值模拟装置”原型系统到支撑FAST天文数据解析,再到E级高性能计算机预研项目,中科曙光积极结合应用匹配研发,将高性能计算的应用场景从科学大数据拓展到更多大数据领域;在技术升级方面,中科曙光在“HPC性能提高的同时如何降低能耗”这一行业挑战面前已经交出了漂亮答卷:今年5月,曙光液冷高性能计算系统成功中标国家电网电力科学研究院,超过700节点的TC4600E-LP液冷刀片将在国家电网仿真中心超级计算系统上部署,迈出了液冷技术在国内商用化的第一步。
推动中国高性能计算机的产业化,这也是曙光作为商业化运作的公司使命。产业化对于曙光,一方面是通过高性能计算机核心技术的研发带动IT产业的发展,另一方面,曙光也作为孵化平台去推动着高性能计算相关行业的长期发展。曙光作为中国科学院先进计算创新与产业化联盟的理事长单位,在这个平台的孵化下,今年与中科院大气所成立了中科三清公司,这个公司主要从事生态环境的实时监测和空气质量的实时预报等业务。而与中科院电子所成立的合资公司航天星图,则主要是从事卫星遥感,空天大数据的深度加工和行业应用。这两个合资公司的诞生都是曙光高性能计算机对相关行业推动和带动的具体产物。
面向科学大数据应时而动
中科曙光发布了全球首个“科学大数据引擎”,其目的就是为了帮助政府部门、科研院所、教育机构、行业技术创新中心、大型企业研发部门等用户向大数据研究方面转型,促进数据密集型计算架构在各行业领域的创新发展和深入应用。曙光公司总裁历军说,科学大数据引擎集成了曙光在高性能计算、海量数据存储和大数据处理分析技术等领域的优势资源,以积极应对科学大数据发展对传统HPC系统提出的挑战。
“科学研究正变成一个又一个的大数据问题。”曙光公司高性能产品事业部总工程师戴荣举例说,“千人基因组计划”每月产生1万亿条碱基序列信息,我国30多个在轨民用航天平台每年有超过3PB遥感卫星数据,FAST射电望远镜的数据产出速度是6000亿条记录/年,大型强子对撞机实验每年产生15PB原始数据……“未来,基于对科学大数据的处理和分析将成为发现新知识的基本特征。”
科学大数据的海量、多源、异构、高维等特征,向传统HPC系统发起了全新的挑战。“多数科研项目的数据量非常巨大并快速变化,且往往是分布、异构的,传统的数据管理模式已不能满足需要;此外对科学大数据的‘计算’包括了从数据获取、管理到分析、可视化的全过程,传统的高性能计算亟需将服务向外延拓展。”戴荣解释说。
走向融合的计算模式
针对科学大数据的行业应用特征,曙光公司认为,科学大数据引擎将实现计算存储分析一体化,充当连接数据源和业务应用的“黑匣子”,完成对数据的清洗转换、存储与管理、数据处理与挖掘、数据分析及可视化等工作,架起从科学数据到科学发现的桥梁。
据戴荣介绍,在科学大数据引擎的“黑匣子”里,部署着曙光全系列数据计算技术及服务产品,主要由5个引擎组件构成,分别是:针对海量非结构化数据的曙光ParaStor并行存储系统、类型丰富的曙光高性能计算平台、最大化提升系统整体效能的曙光深度学习计算平台、高效敏捷的曙光XData大数据处理平台以及能覆盖科学大数据中心全生命周期的曙光EasyOP运维管理平台。
“科学大数据引擎融合了高性能计算、云计算、认知计算、大数据分析等多种模式,是高性能计算与数据分析挖掘的有机结合,可为科研工作者提供一个实现科学数据存储、分析和管理的一体化解决方案。”戴荣评价说。
向E级进发的突破,液冷通用化带来的福音
现在国际比较公认的是实现“E级计算”的时间会在2020年,而今年HPC TOP100位于榜首的“太湖之光”离“E级计算”大概还有10倍的距离。曙光认为,虽然只有10倍,但是真正要实现E级,还有很多的技术难点需要去突破。
E级,就是曙光下一步的进发点。在8次蝉联之后,曙光已经规划了下一步的进阶计划。“向E级高性能计算机的研发,曙光主要关注以下几点。第一是系统功耗,我们要不断地提高系统的能效比,也就是每瓦的计算性能,通过高效的制冷散热技术提高整个系统的节能性。第二,在提高单点性能的同时,提高整个系统的可扩展性,这对整个高性能计算机的高速互联有很高的要求。第三,通过软硬件结合的方式提高整个系统的可靠性以及对应用的容错性。第四,对应用形成高效的支撑,高性能计算机要对应用有一个很好的普适性,这也包括大数据和深度学习等新兴的计算应用。第五,针对超大规模的系统,实现高效的管理和运维。第六,还是产业化,不为了E级而E级,我们希望通过E级高性能计算机的研发,打造健康发展的生态环境,去推动相关产业的产业化。”李斌在HPC China 2016大会上如此谈曙光E级高性能计算的研发重点。
对于曙光来说,在技术方向上,面向E级扩展的重点就是发展Torus网络技术。去年的硅立方系统里,曙光已经实现了3D-Torus网络。这个网络结构最大的优势,首先是有非常好的扩展性和性价比,用Torus网络,系统网络建设成本可以做到和系统规模呈线性关系。其二,它有非常好的邻近通信性能。它的第三大优点则是针对超大规模系统,因为Torus采用了动态路由的算法,所以有着很好的系统容错性。Torus在任何频道之间都有非常多的路径,如果电路断掉,它对整个系统的网络通信不会造成全局性的影响,这也是E级超大规模系统非常重要的一点。
除此之外,对于超大规模系统,曙光正在致力于发展液冷技术,也就是用液体冷媒取代传统的风冷。
目前曙光已经实现了冷板式液冷的产品化,在曙光主流的计算刀片平台上做了液冷的改造,比如曙光的TC4600E-LP。
在国内,神威系列高性能计算机在液体冷却方面做得非常早,而太湖之光也都采用了冷板式液冷的技术。而曙光则推出了量产的通用系统,并且已经获得收益。因为采用液体冷媒,又突破了部件级的精确制冷,再加上全年自然冷却技术,曙光可以把整个计算系统PUE做到1.2以下。相对于传统制冷散热方案,整个系统年均节电大概在30%-40%。另外通过液体冷却大幅度降低了处理器、加速器以及整个系统运行的温度,而处理器超频的性能因此完全释放,所以对用户来说通过液体冷却可以额外得到接近5%性能提升的收益。另外,整个系统运行温度降低,对电子元器件可靠性和寿命都有很大的提升,这也可以大幅度提高整个系统的可靠性。
由于液冷刀片的绝大部分部件与风冷的版本都是通用的,曙光希望通过产业化来降低液体冷却的价格门槛。据曙光估算,大规模系统如果采用液冷方案,整体方案成本提升大概在5%左右,一到两年可以通过节电的方式回收建设成本的增长,这也大幅度降低了液体冷却的使用门槛。
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。