亚马逊云科技推出Amazon DevOps Guru自动化运营服务

基于机器学习的自动化运营服务，为提高应用程序可用性提供定制化建议

AWS

2021-05-21 12:37 4508

近日，亚马逊云科技宣布Amazon DevOps Guru正式可用。这是一项完全托管的运营服务，使用机器学习技术自动检测运营问题，并对具体的修复措施给出建议，让开发者更轻松地提高应用的可用性。

北京2021年5月21日 /美通社/ -- 近日，亚马逊云科技宣布Amazon DevOps Guru正式可用。这是一项完全托管的运营服务，使用机器学习技术自动检测运营问题，并对具体的修复措施给出建议，让开发者更轻松地提高应用的可用性。凭借亚马逊电商Amazon.com和亚马逊云科技多年来卓越的运营经验，Amazon DevOps Guru采用机器学习技术自动分析数据，如应用程序指标、日志、事件，并跟踪偏离正常运营模式的行为。当Amazon DevOps Guru发现可能导致停机或服务中断的异常应用程序行为时，它会向开发人员发出告警通知并提供问题详细信息，帮助他们快速了解问题的潜在影响和可能的原因，并提供修复的具体建议。开发人员可以使用Amazon DevOps Guru提供的补救建议，减少解决问题的时间，并提高应用程序的可用性 -- 所有这些都不需要手动设置或机器学习专业知识。Amazon DevOps Guru无需预付费用，客户只需为Amazon DevOps Guru分析的数据付费。欲开始使用Amazon DevOps Guru，请访问：aws.amazon.com/devops-guru

随着越来越多的组织转向基于云的应用程序部署和微服务架构来扩展他们的业务，分布式应用程序变得越来越普遍，开发人员需要更多的自动化实践来维护应用程序的可用性，并减少用于检测、调试和解决运营问题所耗费的时间和精力。由于代码错误或配置更改、不均衡的容器集群或资源耗尽(例如CPU、内存、磁盘等)等引起的应用程序宕机事件会导致糟糕的客户体验和收入损失。公司投入了大量的开发人员资源、时间和金钱来部署多种监控工具，而这些工具通常需要单独管理，且必须开发和维护针对常见问题的自定义警报，如负载均衡错误的峰值或应用程序请求率的下降。设置阈值来识别和警告应用程序资源的异常行为通常需要手动设置，并且要求阈值必须随着应用程序使用的变化而不断更新（例如，在促销期间出现异常大量的请求）。如果阈值设置得太高，开发人员只有在运营性能受到严重影响时才会看到警报。而阈值设置得太低时，告警次数过于频繁，导致开发者的判断受到影响并容易忽视这些报警。即使开发人员收到了潜在运营问题的警告，确定根本原因的过程仍然是困难的。使用现有的工具，开发人员常常很难从图表和警报中找出运营问题的根本原因，即使找到根本原因，也常常缺乏正确的信息来修复它。每次故障排除尝试都是一次冷启动，团队必须花费数小时或数天时间来识别问题，耗时且乏味，拖慢解决运营故障的进程，并可能延长应用程序中断的时间。

Amazon DevOps Guru的机器学习模型借鉴Amazon.com 20多年来在构建、扩展和维护高可用的应用程序方面的运营经验。该服务能够自动检测运营问题（例如，缺少或配置错误的警报、资源耗尽的早期预警、可能导致宕机的配置更改等），提供涉及资源和相关事件的情境，建议采取补救措施。用户只需在Amazon DevOps Guru控制台点击几下，就会自动从其亚马逊云科技应用程序中获取历史应用程序和基础设施指标（如延迟、错误率和资源请求率），并进行分析，建立正常的运营边界。Amazon DevOps Guru使用一个预先训练的机器学习模型来识别与正常操作模式偏离的行为（例如，不足的计算能力、数据库I/O利用率、内存泄漏等）。当Amazon DevOps Guru分析系统和应用数据自动检测异常时，它还将这些数据分组到运营洞察中，包括异常指标、应用程序随时间变化的行为可视化，以及补救措施建议 -- 所有这些都可以在Amazon DevOps Guru控制台轻松查看。Amazon DevOps Guru还将相关的应用程序和基础设施指标（例如web应用程序延迟峰值、磁盘空间耗尽、糟糕的代码部署等）关联和分组，以减少冗余警报，帮助用户关注严重的问题。客户可以通过Amazon DevOps Guru控制台的仪表板查看配置更改历史和部署事件，以及系统和用户活动，从而生成一个可能导致运营问题的优先级列表。为了帮助客户快速解决问题，Amazon DevOps Guru提供含有补救步骤的智能建议，并与Amazon Systems Manager集成，用于运行手册和协作工具，使客户能够更有效地维护应用程序和管理其部署的基础设施。例如，当使用Amazon Relational Database Service (RDS)的分析应用程序开始显示出延迟性能退化时，Amazon DevOps Guru将通过自动分析跨应用程序堆栈的相关指标来检测变化，确定潜在的根本原因（例如并发计算实例写入RDS的数量增加），并提供解决问题的建议(例如增加RDS的容量和IOPS存储以处理更高的负载)。

“客户希望亚马逊云科技能够提供更多服务，将我们数十年来不断改善Amazon.com应用可用性方面的卓越经验为他们所用。”亚马逊云科技全球机器学习副总裁Swami Sivasubramanian表示，“Amazon DevOps Guru正是发挥我们的专长，构建专门的机器学习模型，可以在运营问题影响客户之前就检测、排除故障并预防它们，而不是在每次出现问题后开始处理。Amazon DevOps Guru可以即刻为客户带来好处，获得我们运行Amazon.com过程中积累的运营最佳实践，我们将Amazon DevOps Guru设计得简单易用，对于每个亚马逊云科技的客户来说，都可以轻松地启用该服务。”

客户只需在亚马逊云科技管理控制台中点击几下，就可以使用Amazon DevOps Guru在几分钟内开始分析帐户和应用程序活动，并提供运营洞察。Amazon DevOps Guru为客户提供单控制台体验，通过汇总多个来源（例如Amazon CloudTrail, Amazon CloudWatch, Amazon Config, Amazon CloudFormation, Amazon X-Ray）的相关数据并可视化，免去在多个工具之间切换。客户还可以在Amazon DevOps Guru控制台中查看相关的运营事件和上下文数据，并通过Amazon SNS接收警报。此外，Amazon DevOps Guru通过Amazon SDK支持API端点，使得亚马逊合作伙伴网络成员和客户可以轻松地将Amazon DevOps Guru集成到他们现有的解决方案中，用于故障单分级、寻呼和针对高严重性问题的工程师自动通知。PagerDuty和Atlassian是亚马逊云科技的合作伙伴，已经将Amazon DevOps Guru集成到他们的运营监控和事件管理平台中，使用该解决方案的客户可以从Amazon DevOps Guru提供的运营见解中获益。Amazon DevOps Guru现已在美国东部(弗吉尼亚北部)、美国东部(俄亥俄)、美国西部(俄勒冈)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(东京)、欧洲(法兰克福)、欧洲(爱尔兰)和欧洲(斯德哥尔摩)区域正式推出，其他区域也将很快推出。

与Amazon CodeGuru服务一起，Amazon DevOps Guru为客户带来了面向其运营数据的机器学习自动化优势，让开发人员可以更轻松地提高应用可用性和可靠性。Amazon CodeGuru是一个由机器学习驱动的开发工具，为提高代码质量和识别应用程序最昂贵的代码行提供智能建议。

Atlassian产品为超过19.4万家公司的团队服务以简化团队合作，帮助他们组织、讨论和完成工作。“很高兴看到我们的客户正在使用Amazon DevOps Guru来管理他们云应用的运营性能。”Opsgenie产品主管Emel Dogrusoz表示，“通过我们新的Opsgenie和Jira Service Management集成，当Amazon DevOps Guru发现一个潜在问题时会立即通知正确的团队，并使用机器学习技术根据事件的严重程度对其进行优先级排序。这种集成确保团队都能快速响应，使用机器学习支持的建议解决问题，从每一个事件中获取经验。”

Fidelity Investments帮助超过3500万人对他们最重要的财务目标更具信心，管理超过22000家企业的员工福利计划，并通过创新的投资和技术解决方案支持超过13500家金融机构发展业务。“在Fidelity，我们正利用云技术来增强我们的全球客户体验，并提高应用程序的弹性。”Fidelity Investments公共云服务高级副总裁Keith Bliard表示，“像Amazon DevOps Guru这样的AIOps工具帮助我们为客户提供更高效的体验和更有弹性的平台。”

PagerDuty, Inc.( NYSE:PD)是数字运营管理领域的领导者。“PagerDuty很高兴能进一步深化与亚马逊云科技的合作，与Amazon DevOps Guru进行新的集成。PagerDuty的数字运营管理平台是为了推动DevOps文化的转变而建立的，我们很高兴能通过这次集成持续推进这一承诺。”PagerDuty产品高级副总裁Jonathan Rende表示，“利用Amazon DevOps Guru的机器学习能力，PagerDuty为我们的客户提供了更实时的‘信号->行动’能力。通过Amazon DevOps Guru，PagerDuty获取Amazon SNS，亚马逊云科技客户可以在运营问题成为影响客户的停机事件之前采取实时行动。”

Thomson Reuters是全球最受信赖的资讯提供商之一，帮助专业人士做出自信的决定，更好地经营企业。“客户体验和满意度是我们的首要任务。当接收到多个警报和监测事件源时，从噪声中筛选识别客户影响事件是一项挑战和耗时的工作。”Thomson Reuters站点可靠性和云部门总监Steve Thoennes表示，“有了Amazon DevOps Guru，我们能够利用其机器学习驱动的洞察力，为行动提供清晰的路径，以减少甚至在许多情况下消除问题对我们客户的影响。Amazon DevOps Guru与PagerDuty的集成也提供了一条直接路径，可以在正确的时间将建议快速有效地传递给正确的人。我们预计这将显著减少运营停机时间。”

消息来源：AWS