点亮智慧|AI和机器学习将如何助力数据中心

图片来源:盖帝图像公司


我们对人工智能(AI)理解和解决问题的能力有着超乎寻常的信任。AI已经在我们日常生活的许多领域得到了应用,同时AI的硬件也已经开始在我们的数据中心得到了推广。数据中心本身存在包括优化和预测的一系列复杂的问题。那么,利用AI这种神奇的技术将如何来改善我们的数字基础设施?

走进AI内部


机器学习能力,特别是深度学习,可以不依赖人脑对数据理解和预测的模式来检测大量的数据和它们内部的模式。它还可以用来预测未来将重复出现的模式。数据中心都已经配备了良好的设备,数据中心安装的传感器可以提供大量关于IT性能和环境因素的实时数据和历史数据。2016年谷歌为了提高效率将人工智能应用于数据中心的这些数据,成为当时的头条新闻。谷歌运用旗下DeepMind公司的人工智能技术优化自己数据中心的冷却系统。

在2014年,谷歌宣布数据中心工程师Jim Gao正在使用人工智能技术实现一个推荐的引擎。2016年,该项目使用了一组神经网络优化了谷歌新加坡数据中心的冷却系统,这些神经网络学会了如何预测未来的温度,同时提供建议来做出积极的反应。2016年,谷歌旗下DeepMind公司的研究工程师Richard Evans表示,以上的措施减少了该新加坡数据中心40%的制冷费用和降低了15%的PUE(电力利用效率)。Richard承诺:“因为这个算法是一个理解复杂动力学的通用用途框架,我们计划将其应用到数据中心环境的其他挑战和以后的更多情况。”2018年宣布的下一步措施,是通过人工智能在人工监督下调整数据中心的操作设置而向自动运行的数据中心冷却系统靠拢。为确保系统的安全运行,项目团队限制了系统的运行,因此自动系统“只”节省了30%的制冷费用。

DCD 2019.7月份杂志,“人工智能专题”增刊

系统的几千个感应器对数据中心冷却系统每5分钟截取快照数据,然后输入云上的AI系统,用于预测潜在的动作如何影响将来的能耗和选择最佳选项。这些数据会被发送到数据中心由本地控制系统进行验证,然后进行实施。项目团队报告说系统已经开始产生意想不到的优化。曾经与该系统有过广泛合作的谷歌数据中心运维工程师Dan Fuenffinger评论道:“看到AI学习利用冬天的温度条件,减少了数据中心内部的制冷所需能源,而且产生比采用普通水获得更好的制冷效果,真是一个非常神奇的体验。规则不会随着时间变得更好,但人工智能可以做到。”

Jim Gao表示,最大的成功是该系统安全和高效地运行。所有的决策会根据安全条例进行审查,人工操作人员可以随时接手。在这个阶段,谷歌的AI优化只有一个客户:谷歌自己。但这个理念已经得到了学术界的大力支持。

稳定性因素


人类和简单基于规则的系统可以应对任何稳态情况,但当环境发生变化时,他们会以“波涛汹涌”的方式激烈反应。DCD论坛演讲人Suvojit Ghosh认为,因为AI能够预测变化,所以它在环境变化时可以做得更好。Suvojit Ghosh目前领导着加拿大安大略省麦克马斯特大学的计算基础设施研究中心。“我们知道服务器过热是有问题的。”Ghosh说。“但是如果碰到温度波动,情况明显会更糟糕。“简单的规则能够使数据中心迅速达到最佳的稳态位置,但在这个过程中,它们会突然改变温度,从而浪费了大量能量。”如果条件经常变化,这些能量损失会抵消已经取得的收益。”“如果环境从70华氏度升到80华氏度(摄氏21度到27度)又跌回,那真的会有损害,”Ghosh说。

数据中心服务公司正在做出回应。数据中心基础设施管理(DCIM)服务商已经增加了智能管理方面的方案能力,同时那些已经在其产品上集成了预测分析服务模块的公司也已经为其解决方案增加了额外的机器学习方案模块。Romonet公司的联合创始人Zahl Limbuwala说 :“目前机器学习是处于平台的初始数据处理阶段。在这个平台上, 从传感器和仪表传输来的原始数据进行规范化、清洗、验证和标记,然后被送入预测建模引擎。”Romonet是世邦魏理仕集团(CBRE)旗下的一家数据分析公司。智能化在电力和制冷领域的发展会有不同的名称。在中国,华为致力于电力、制冷和DCIM的更加智能化,并分别给予它们代号为iPower、iCooling和iManager。与谷歌和其他公司相似,华为也是从简单实用的步骤开始,比如使用模式匹配来控制温度和收集制冷剂泄漏的现场证据。在电力系统中,华为使用AI技术来识别和隔离故障。

据华为高级营销经理邹骁腾介绍说,在拥有1540个机柜的华为廊坊数据中心,华为使用iCooling技术大幅降低了PUE。数据中心设施在43%IT负荷率时运行时每个机柜能耗约6kW 。DCIM供应商Nlyte公司于2018年通过签署协议,将其工具与世界上最引人注目的人工智能项目之一IBM Watson进行集成,从而向世人展示它将专注于DCIM技术应用的决心。同年在DCD纽约大会上,Nlyte公司首席执行官Doug Sabella就已经预言AI 增强型DCIM将带来伟大的成就。“ 预防性维护将变成简单的事情。”他告诉DCD。“但除了预测之外,你真的要处理工作负载并管理工作负载。从应用程序性能管理的角度考虑的话,今天,你将根据有限的数据集来安排工作负载。我是把它放在公共云中,还是放在我的私有云中呢? 帮助确定其位置和基础设施的特性又是什么?”“有一整套关键信息还没有包含在这个决定中,但从人工智能的角度来看,你可以深入其中对实际减少工作负载、优化工作负载和降低工作负载失败风险这些方面做出贡献。我们和合作伙伴都看到了一整套人工智能的做法,我们正在为此努力,使其产生巨大影响。”Amy Benett是IBM Watson物联网北美市场营销主管,她看到了另一个实用的方面:“瞧,这个数据中心团队的新成员,从不休假,也从不在休息室吃他的午餐。”

DCD相信这些合作关系将继续下去。据报道,IBM Watson在医疗等要求更高的领域未能兑现承诺,使IBM Watson品牌多少有些黯然失色。这个早期的品牌领导者有可能被过度夸大了其应用能力。但数据中心可能是IBM Watson恢复其良好声誉的一个舞台。数据中心的关键系统相比人体而言要简单很多。

下一步


Ghosh博士在呼应Doug Sabella的观点时表示,现在是时候让AI着手解决更大的问题了。在最初的停顿之后,改善电力和冷却效率的努力将最终达到回报递减点。在这一点,人工智能可以开始自动移动IT负载:“使用计算历史记录的成本来进行智能负载平衡或容器的编排,你可以降低特定应用程序的能源成本。”Ghosh告诉他在DCD大会上的听众,“只是通过(使用AI)重新安排工作,就有可能节省一半的IT能源成本。这还没有考虑关闭空闲服务器或任何类似的疯狂行为。”

Suvojit Ghosh,加拿大麦克马斯特大学

除此之外,Ghosh正在一个数据中心使用人工智能对声音进行分析。他说:“如果有声音听起来怪怪的,有经验的人会告诉你一定是出了什么问题。”CIRC已经为数据中心创建了声音档案,并将其与电力消耗关联起来。华为也在做同样的工作。“如果变压器有问题,噪音的模式会改变。”邹骁腾说,“通过对变压器噪音模式的学习,我们可以运用声学技术监测变压器的状态。”Ghosh说:“这种方法使AI能够超越人类专业知识,并获得人类认知永远无法理解的知识。”“未来10年,我们将在故障发生前预测到它们。”Ghosh说:“我的一个梦想,就是创建一种算法可以完全消除预防性维护的需要。”    

华为的邹骁腾告诉DCD,他认为AI还有一些无形的好处,比如可以提高20%左右的资源利用率,同时减少人为失误。邹骁腾从一开始就看着数据中心如何从最初完全人工操作到现在运用AI的发展过程。“在第一阶段,基本功能是用传感器可视化数据中心的内容;第二阶段,我们有一些辅助,如部分无人值守的操作,”目前数据中心将情况向工程师报告,工程师将做出相应反应。”在第三阶段,数据中心开始进行问题原因分析和提供虚拟帮助来解决问题,”他说。“华为已经到了这个阶段。在未来,我相信我们可以使用人工智能来预测数据中心是否有任何问题发生,并使用人工智能来自我恢复。”邹骁腾预测,在这个阶段DCIM系统甚至可以从特定的AI处理器得益。华为已经在试验使用Ascend系列人工智能处理器,用于在云计算和边缘领域的DCIM合作。

大多数用户与这些AI想法相比还仍然处于早期阶段,但有一些人明确地分享他们对AI的乐观态度。Eric Fussenegger是富国银行的数据中心经理,他在2019年的DCD纽约大会上告诉DCD:“今天我们使用AI监控设置值,通过在DCIM加入这一功能来使得管理平台更高效、透明。”“顺便说一句,AI在遥远的未来可能会变得更强大。” Eric提到:“墨水还没干,可能还没沾到纸上。但智能设备可以在数据中心的日常物理维护和运营中发挥作用。“将来有一天,机器人会接管我们的清洁工作或货架设备,这样我就不用担心在冷热通道里的工作人员了。现在已经有一些杂货店在使用AI机器人进行日常清扫工作了。”即便是这些极端的观点也是有所缓和的。Eric又说道:“ 然而,我认为我们总是需要人类作为后备。”



Be the first to comment

Leave a Reply