新闻是有分量的

中国超算服务,谁主沉浮?

2019-10-18 03:30栏目:商业圈

  最近,超算领域学术界和产业界人士围绕“中国超算服务创新”展开了一场热烈的讨论。

  起因是,北京并行科技股份有限公司(以下简称并行科技)总经理陈健从超算建设投入产出比的角度提出,虽然中国超算近年来取得了瞩目的成就,但超算服务的模式还很落后,特别是一些自建院系、单位级和用户组级超算集群(统称为中小微超算),投入产出比远不及大型超算,且年平均利用率低,这种“小农经济式”超算服务形态,急需改进、创新。

  如何为科研提供更好的超算服务,是中国超算的一大命题。

  陈健提出的解决方案是“超算上云”。作为超算云服务提供商,陈健认为,超算的使用者大都要经历“国内外大超算平台排队上机——自建超算集群——租用超算——超算云服务”的过程,这是一个“从落后的生产力逐渐过渡到更先进的生产力形式”。

  以此为发端,超算领域学术界、产业界人士从各个角度给出了他们的理解和思考。

  超算“全盘云化”有其局限

  之所以以“小农经济”类比,在陈健看来,自建超算集群就好比自种“两亩自留地”,这些自建的中小微超算有些浪费,不如大家都把需求集中起来,把无数的“两亩地”汇集成“万亩良田”,大家通过超算云服务的形式,从大型超算上按需购买计算资源,不但可减少浪费,还能提高应用效率。

  相应的,陈健把并行科技比作“制造大型农机具的”——只有大型超算(万亩良田)多了,“现代农机具厂商”才好开张。

  但是,超算全部上云(指服务模式,并非云计算),现实吗?

  虚拟化和云计算专家麻清刚提出,从技术上来讲,限制超算“上云”的条件是网络带宽。“如果可以以极低成本拉一条400G的网络专线,超算还真有可能全盘云化——但不一定都是公有云,私有云、企业云、行业云等形态都可能存在。”

  但是,带宽问题目前很难逾越。“带宽费用是阻碍我们去内蒙古建超算的最主要原因,节约的电费都给运营商买带宽去了。”北京大学高性能计算平台主任工程师、计算中心系统管理室主任樊春这样说。

  内蒙古电价为每千瓦时0.26元。近年来,西部地区利用“超低电费”的条件大力投建IT基础设施,这对于一般的云计算中心来说是个利好,但对于超算而言,并不一定可行。

  樊春说,对于大部分超算用户来说,速度和价格是排在前两位的。超算中心对外提供计算服务,只有同时满足这两点,用户才愿意买单。

  且不说“拉一条400G的网络专线”是个很大的前提,仅超算服务“全盘云化”这一点,中科院计算所研究员、国家超级计算济南中心主任张云泉就不太认同。

  他从超算需求的角度出发,认为目前超算云服务只能支持一些中低端计算需求,那些更快、更大规模的需求,超算云服务的形式还提供不了,“就像当年网格计算声称可全面取代超算一样,超算服务全盘云化几乎不可能”。

  超算成本下降还需规模效益

  樊春还提出一个问题:“超算云技术管理上无法降低成本,从而无法降低对最终用户的价格,这是超算云发展的最大障碍。”

  这一观点与陈健提出的观点相悖。陈健此前在接受《中国科学报》采访时称,超算云服务商的角色,就是通过研发软件和方案,以技术输出提高超算集群的易用性和有效利用率,从而降低超算的使用成本——把超算的每核时成本降低至一毛钱。

  二者的矛盾点在哪?

  一个答案是:用户规模。只有用户规模上去了,两人的观点才能找到平衡点。

  一方面,陈健认为樊春所在的北京大学校级高性能计算平台,已经有了足够大的规模应用,规模效益已现,所以北大能够给予用户更低的价格;

  另一方面,陈健也深知城域网光纤非常贵——他们就投建了从广州超算到北京的城域网光纤专线,之所以这么做,是因为并行科技也实现了规模效益,通过这条光纤专线,并行科技有每年数千万元的超算云服务经营额。

  “这(超大带宽网络光纤)是一个极具规模效益的基础设施投入。”陈健感叹。

  那么,现在中国超算应用是否到了产生规模效益的节点?

  陈健认为“是”。他给出了一组数据:并行科技依托各大超算中心资源提供的超算云服务,现在已经有近1.5万个客户,并行科技给用户提供的超算价格,经核算比自建超算低一半。此外,2018年并行科技超算云服务合同额已达2亿元,预计2019年会达到3亿元。