TranslateProject/translated/talk/20200401 The ins and outs of high-performance computing as a service.md
messon007 f087cd01bb
Done
2020-05-02 10:17:29 +08:00

13 KiB
Raw Blame History

高性能计算即服务的来龙去脉

高性能计算(HPC)服务可能是一种满足不断增长的超级计算需求的方式,但依赖于使用场景,它们不一定比使用本地超级计算机好。

戴尔EMC 导弹和军用直升机上的电子设备需要工作在极端条件下。国防承包商麦考密克·史蒂文森公司McCormick Stevenson Corp.在部署任何物理设备之前都会事先模拟它所能承受的真实条件。模拟依赖于像Ansys这样的有限元素分析软件该软件需要强大的算力。

几年前的一天,它出乎意料地超出了计算极限。 世界上最快的10个超级计算机

麦考密克·史蒂文森McCormick Stevenson的首席工程师迈克·克劳奇奇Mike Krawczyk“我们的一些工作会使办公室的计算机不堪重负。购买机器并安装软件在经济上或计划上都不划算。” 相反该公司与Rescale签约从其购买在超级计算机系统上运行的周期(cycles),而这只花费了他们购买新硬件上所需的一小部分。

麦考密克·史蒂文森McCormick Stevenson已成为被称为超级计算即服务或高性能计算HPC即服务(两个紧密相关的术语)市场的早期采用者之一。根据国家计算科学研究所(的定义)HPC是超级计算机在计算复杂问题上的应用而超级计算机是处理能力最先进的那些计算机。

无论叫它什么这些服务都在颠覆传统的超级计算市场并将HPC能力带给以前买不起的客户。但这不是万能的而且绝对不是即插即用的至少现在还不是。

HPC服务实践

从最终用户的角度来看HPC即服务类似于早期大型机时代的批处理模型。 “我们创建一个Ansys批处理文件并将其发送过去运行它然后将结果文件取下来并在本地导入它们” Krawczyk说。

在HPC服务背后云提供商在其自己的数据中心中运行超级计算基础设施尽管这不一定意味着当您听到“超级计算机”时你就会看到最先进的硬件。正如IBM OpenPOWER计算技术副总裁Dave Turek解释的那样HPC服务的核心是“相互互连的服务器集合。您可以调用该虚拟计算基础设施它能够在您提出问题时使得许多不同的服务器并行工作来解决问题。”

理论听起来很简单。但都柏林城市大学数字业务教授西奥·林恩Theo Lynn表示要使其在实践中可行需要解决一些技术问题。普通计算与HPC的区别在于那些互连-高速的,低延时的而且昂贵的-因此需要将这些互连引入云基础设施领域。在HPC服务可行之前至少需要将存储性能和数据传输也提升到与本地HPC相同的水平。

但是林恩说一些制度创新相比技术更好的帮助了HPC服务的起飞。特别是“我们现在看到越来越多的传统HPC应用采用云友好的许可模式-过去是采用这种模式的障碍。”

他说,经济也改变了潜在的客户群。 “云服务提供商通过向那些负担不起传统HPC所需的投资成本的低端HPC买家开放进一步开放了市场。随着市场的开放超大规模经济模型变得越来越多更可行成本开始下降。”

避免本地资本支出** **

HPC服务对有志于传统超级计算长期把持的领域的私营行业客户具有吸引力。这些客户包括严重依赖复杂数学模型的行业包括麦考密克·史蒂文森McCormick Stevenson等国防承包商以及油气公司金融服务公司和生物技术公司。都柏林城市大学的Lynn补充说松耦合的工作负载是一个特别好的用例这意味着许多早期采用者将其用于3D图像渲染和相关应用。

但是何时考虑HPC服务而不是本地HPC才有意义对于德国的模拟烟雾在建筑物中的蔓延和火灾对建筑物结构部件的破坏的hhpberlin公司来说答案是在它超出了其现有资源时。

Hpberlin公司数值模拟的科学负责人Susanne Kilian说“几年来我们一直在运行自己的小型集群该集群具有多达80个处理器核。” “但是,随着应用复杂性的提高,这种架构(constellation)已经越来越不足以支撑;可用容量并不总是够快速地处理项目。”

她说“但是仅仅花钱买一个新的集群并不是一个理想的解决方案鉴于我们公司的规模和管理环境强制持续维护该集群定期进行软件和硬件升级是不现实的。另外需要模拟的项目数量会出现很大的波动因此集群的利用率并不是真正可预测的。通常使用率很高的阶段与很少使用或不使用的阶段交替出现。”通过转换为HPC服务模式hhpberlin释放了过剩的容量并无需支付升级费用。

IBM的Turek解释了不同公司在评估其需求时所经历的计算过程。对于拥有30名员工的生物科学初创公司来说“您需要计算但您实在负担不起15的员工专门从事它。这就像您可能也说过您不想拥有在职法律代表因此您也可以通过服务获得它。”但是对于一家较大的公司而言最终归结为权衡HPC服务的运营费用与购买内部超级计算机或HPC集群的费用。

到目前为止这些都是您采用任何云服务时都会遇到的类似的争论。但是可以HPC市场的某些特点将使得衡量运营支出与资本支出时选择前者。超级计算机不是诸如存储或x86服务器之类的商用硬件它们非常昂贵技术进步很快会使其过时。正如麦考密克·史蒂文森McCormick Stevenson的克拉维奇Krawczyk所说“这就像买车只要车一开走它就会开始贬值。”对于许多公司尤其是规模较大灵活性较差的公司购买超级计算机的过程可能会陷入无望的泥潭。 IBM的Turek说“您陷入了计划问题建筑问题施工问题培训问题然后必须执行RFP。您必须得到CIO的支持。您必须与内部客户合作以确保服务的连续性。这是一个非常非常复杂的过程并没有很多机构有非常出色的执行力。”

一旦您选择了HPC服务的路线后您会发现您会得到您期望从云服务中得到的许多好处特别是仅在业务需要时才需付费的能力从而可以带来资源的高效利用。 Gartner高级总监兼分析师Chirag Dekate表示当您对高性能计算有短期需求时的突发性负载是推动选择HPC服务的关键用例。

他说“在制造业中在产品设计阶段HPC活动往往会达到很高的峰值。但是一旦产品设计完成在其余产品开发周期中HPC资源的利用率就会降低。” 相比之下,他说:“当您拥有大量长期运行的工作时,云的经济性就会逐渐减弱。”

通过巧妙的系统设计您可以将这些HPC服务突发活动与您自己的内部常规计算集成在一起。 埃森哲(Accenture)实验室常务董事Teresa Tung举了一个例子“通过API访问HPC可以无缝地与传统计算混合。在模型构建阶段传统的AI流水线可能会在高端超级计算机上进行训练但是最终经过反复按预期运行的训练好的模型将部署在云中的其他服务上甚至部署在边缘设备上。”

它并不适合所有的应用场景 **

**

HPC服务适合批处理和松耦合的场景。这与HPC的普遍缺点有关数据传输问题。高性能计算本身通常涉及庞大的数据集而将所有这些信息通过Internet发送到云服务提供商并不容易。IBM的Turek说“我们与生物技术行业的客户交流他们每月仅在数据费用上就花费1000万美元。”

钱并不是唯一的潜在问题。已制定的需要使用数据的工作流可能会使您在数据传输所需的时间内无法工作。hhpberlin的Kilian说“当我们拥有自己的HPC集群时当然可以随时访问已经产生的仿真结果从而进行交互式的临时评估。我们目前正努力达到在仿真的任意时刻都可以更高效地交互地访问和评估云中生成的数据而无需下载大量的模拟数据。”

Mike Krawczyk提到了另一个绊脚石合规性问题。国防承包商使用的任何服务都需要遵从(原文是complaint, 应该是笔误)《国际武器交易条例》ITAR麦考密克·史蒂文森McCormick Stevenson之所以选择Rescale部分原因是因为这是他们发现的唯一符合的供应商。如今尽管有更多的公司(使用云服务)但任何希望使用云服务的公司都应该意识到使用其他人的基础设施时所涉及的法律和数据保护问题而且许多HPC场景的敏感性使得更HPC即服务的这个问题更加突出。

此外HPC服务所需的IT治理超出了目前的监管范围。例如您需要跟踪您的软件许可证是否允许云使用­ 尤其是专门为本地HPC群集上运行而编写的软件包。通常您需要跟踪HPC服务的使用方式它可能是一个诱人的资源尤其是当您从员工习惯的内部系统过渡到有可用的空闲的HPC能力时。例如Avanade全球平台高级主管兼Azure平台服务全球负责人Ron Gilpin建议回调您用于时间不敏感任务的处理核心数量。他说“如果一项工作只需要用一小时来完成而不需要在十分钟内就完成那么它可以使用165个处理器而不是1,000个从而节省了数千美元。”

独特的HPC技能**

**

一直以来采用HPC的最大障碍之一就是其所需的独特的内部技能而HPC服务并不能使这种障碍消失。Gartner的Dekate表示“许多CIO将许多工作负载迁移到了云上他们看到了成本的节约敏捷性和效率的提升因此相信在HPC生态中也可以达成类似的效果。一个普遍的误解是他们可以通过彻底地免去系统管理员并聘用能解决其HPC工作负载的新的云专家从而以某种方式优化人力成本。”

“但是HPC并不是一个主流的企业环境。” 他说。“您正在处理通过高带宽低延迟的网络互联的高端计算节点以及相当复杂的应用和中间件技术栈。许多情况下甚至连文件系统层也是HPC环境所独有的。没有对应的技能可能会破坏稳定性。”

但是超级计算技能的供给却在减少Dekate将其称为劳动力“灰化”这是因为一代开发人员将目光投向了新兴的初创公司而不是学术界或使用HPC的更老套的公司。因此HPC服务供应商正在尽其所能地弥补差距。 IBM的Turek表示许多HPC老手将总是想运行他们自己精心调整过的代码将需要专门的调试器和其他工具来帮助他们在云上实现这一目标。但是即使是HPC新手也可以调用供应商构建的代码库以利用超级计算的并行处理能力。第三方软件提供商出售的交钥匙软件包可以减少HPC的许多复杂性。

埃森哲的Tung表示该行业需要进一步加大投入才能真正繁荣。她说“HPCaaS已经创建了具有重大影响力的新功能但还需要做的是使它易于被数据科学家企业架构师或软件开发人员使用。这包括易用的API文档和示例代码。它包括用户支持来解答问题。仅仅提供API是不够的API需要适合特定的用途。对于数据科学家而言这可能是以python形式提供,并容易更换她已经在使用的框架。其价值来自使这些用户最综只有在使用新功能时才能够改进效率和性能。” 如果供应商能够做到这一点那么HPC服务才能真正将超级计算带给大众。

加入FacebookLinkedIn上的Network World社区探讨最前沿的话题。

via: https://www.networkworld.com/article/3534725/the-ins-and-outs-of-high-performance-computing-as-a-service.html

作者:Josh Fruhlinger 选题:lujun9972 译者:messon007 校对:校对者ID

本文由 LCTT 原创编译,Linux中国 荣誉推出