亚马逊云科技推出五项数据库和分析服务功能，提高PB级数据处理能力

亚马逊云科技

2022-12-12 13:20 3739

Amazon DocumentDB Elastic Clusters可将客户的文档工作负载扩展到支持每秒数百万次写入并存储PB级数据
Amazon OpenSearch Serverless可帮助客户在无需手动配置、扩展或管理底层基础设施的情况下运行搜索和分析工作负载
Amazon Athena for Apache Spark的功能让客户得以使用Apache Spark进行交互式分析，并将分析所需时长从数分钟缩短到一秒以内
Amazon Glue Data Quality自动测量、监控和管理数据湖和数据管道中的数据质量，将数据分析和规则识别的时间从几天缩短到几小时
Amazon Redshift现在支持跨多个亚马逊云科技可用区的高可用配置

北京2022年12月12日 /美通社/ -- 亚马逊云科技在2022 re:Invent全球大会上宣布推出五项涵盖数据库和分析产品组合的全新功能，让客户能够更快、更轻松地管理和分析PB级数据。几项针对Amazon DocumentDB（与MongoDB兼容）、Amazon OpenSearch Service和Amazon Athena的新功能让客户能够更轻松地大规模运行高性能数据库和分析工作负载。此外，亚马逊云科技还发布了Amazon Glue的一项新功能，可以跨数据湖和数据管道自动管理数据质量。最后，Amazon Redshift现在支持跨多个亚马逊云科技可用区（AZ）的高可用配置。此次发布让客户能够拥有适合其数据工作负载的恰当工具，实现大规模运营并提高可用性，从而帮助客户充分利用其在亚马逊云科技上的数据。要了解有关使用亚马逊云科技释放数据价值的更多信息，请访问aws.amazon.com/data。

“数据天生就是动态的，需要端到端的数据战略来充分发挥其潜力。数据战略应该能够根据客户的需求进行扩展，适应所有类型的用例，兼顾现在和未来。”亚马逊云科技数据库、分析和机器学习副总裁 Swami Sivasubramanian表示，“为了帮助客户充分利用不断增长的、海量而多样化的数据，我们一直致力于提供最广泛和最深入的数据库和分析服务。在此基础上，我们今天推出的新功能可以让客户更方便地查询、管理数据和扩大数据规模，更快地做出数据驱动的决策。”

当前，组织创建和存储的数据达到PB级甚至EB级，数据来源日益多样化，这其中包括数字媒体、在线交易和各种联网设备。为了最大限度地发挥这些数据的价值，客户需要端到端的数据战略，为所有数据工作负载和应用提供合适的工具，并能在数据体量增大、流速提升时仍能规模化、可靠地执行。为了支持客户设计自己的端到端数据战略，亚马逊云科技提供了业界最全面的数据服务和解决方案，其中包括针对客户最重要的用例而优化的全托管数据库，例如用于关系数据库的Amazon Aurora和用于文档数据库的Amazon DocumentDB；还包括可以帮助客户从数据中获得有价值的洞察的多种分析服务，诸如面向搜索和分析工作负载（如实时应用监控、日志分析和网站搜索）的Amazon OpenSearch Service、面向交互式分析的Amazon Athena 、面向数据集成的Amazon Glue 和面向数据仓库的Amazon Redshift。此次发布在这些服务的基础上提供高级功能。

Amazon DocumentDB Elastic Clusters以每秒数百万次写入的性能为PB级应用提供支持。数以万计的客户使用 Amazon DocumentDB运行文档工作负载，因为它速度快、可扩展、高度可用而且完全托管。虽然每个 Amazon DocumentDB节点最多可扩展到64TB数据并支持每秒数百万次读取请求，但有一部分客户的工作负载要求极高，需要超越这些限制的扩展能力，以支持每秒数百万次写入并存储PB级数据。以往，这些客户必须在多个Amazon DocumentDB节点间手动分拆数据、管理容量。Amazon DocumentDB Elastic Clusters允许客户在几分钟内扩展，打破单个数据库节点的限制，以支持每秒数百万次的读写并存储高达2 PB的数据。随着工作负载需求不断增加，Amazon DocumentDB Elastic Clusters可以利用分布式存储系统自动将大型数据集划分到多个节点。客户不再需要编写自定义代码分拆数据集和跨节点手动管理容量。底层基础设施自动管理，客户可以根据需要轻松扩展容量，无需配置、扩展或管理数据库集群。要了解有关Amazon DocumentDB Elastic Clusters的更多信息，请访问aws.amazon.com/documentdb/features/#elastic_clusters。
Amazon OpenSearch Serverless自动扩展搜索和分析工作负载。数以万计的客户使用Amazon OpenSearch Service支持网站搜索和实时应用监控等用例，这其中许多工作负载由于经常出现间歇性使用高峰使得提前规划容量非常困难。Amazon OpenSearch Serverless可以自动置备、配置和扩展OpenSearch基础设施，即使对不可预测和间歇性的工作负载，也可以提供快速数据注入的能力以及毫秒级的查询响应。借助 Amazon OpenSearch Serverless，数据注入和搜索资源可以独立扩展，两种操作并发运行而不会影响性能。使用 Amazon OpenSearch Serverless的客户可以获得无服务器带来的优势（如自动配置、按需扩展和按使用付费定价等），还可以获得Amazon OpenSearch Service的功能（如内建的数据可视化）用以理解日志数据、识别异常、查看搜索相关性排名。要了解有关Amazon OpenSearch Serverless的更多信息，请访问aws.amazon.com/opensearch-service/features/serverless。
Amazon Athena for Apache Spark将交互式分析的启动时间缩短到1秒以内。客户使用无服务器交互式查询服务Amazon Athena。它使用标准SQL接口在Amazon Simple Storage Service（Amazon S3）查询数据，是查询PB级数据最方便、最快的方式之一。很多客户在使用Apache Spark时也希望有同样的易用性（Apache Spark是一种开源处理框架，用于支持Java、Scala、Python和R等流行语言框架的大数据工作负载）。开发人员虽然很喜欢Apache Spark的快速查询速度和易用性，但他们不想在每次运行查询时都花时间搭建、管理和扩展Apache Spark基础设施。现在，使用Amazon Athena for Apache Spark，客户已无需自己置备、配置和扩展资源。交互式Apache Spark应用的启动时间不到1秒，执行速度比跑在亚马逊云科技优化版Spark runtime上的开源方案更快。由于Amazon Athena与其他亚马逊云科技服务的集成，客户可以从多个来源查询数据，将运算串连在一起进行复杂分析，并且将结果可视化。Amazon Athena for Apache Spark会根据应用需求自动确定所需的资源，并且按需扩展，因此客户只需为他们运行的查询付费。要开始使用面向Apache Spark的Amazon Athena，请访问aws.amazon.com/athena/spark。
Amazon Glue Data Quality自动监控和管理数据的时效性、准确性和完整性。成千上万客户使用Amazon Glue快速、轻松且经济高效地构建和管理现代数据管道。组织需要监控其数据湖和数据管道中信息的数据质量（衡量数据的时效性、准确性和完整性），在确保数据的高质量之后再将其用于分析或机器学习应用。但数据质量管理是一个耗时且复杂的过程，需要数据工程师花费数天时间收集数据的详细统计数字，根据这些统计数字信息手动识别数据质量规则，并将其应用于数千个数据集和数据管道。在这些规则被付诸实施之后，数据工程师还必须持续监控数据中的错误或变化并对规则进行相应的调整。Amazon Glue Data Quality可以自动测量、监控和管理Amazon S3数据湖和Amazon Glue数据管道的数据质量，将数据分析和规则识别的时间从几天缩短到几小时。Amazon Glue Data Quality可以计算客户数据集的统计数字（如最小值、最大值、直方图和相关性），使用统计数字自动地推荐规则，确保数据的时效性、准确性和完整性。客户可以安排Amazon Glue Data Quality在数据发生变化时定期运行，自动分析数据并提出质量规则的更改建议以确保相关性。一旦出现质量问题，数据工程师无需编写代码即可配置用户提醒或终止数据管道。要了解有关Amazon Glue Data Quality的更多信息，请访问aws.amazon.com/glue/features/data-quality。
Amazon Redshift现已支持多可用区部署。数以万计的亚马逊云科技客户每天使用Amazon Redshift处理总计达EB级的数据。为了支持这些客户的关键任务工作负载，Amazon Redshift提供了很多增加可用性和可靠性的功能，例如自动备份以及在几分钟内将集群重新在另一个可用区拉起的能力。当前，许多数据库使用主备复制模式来保证高可用性，单数据库为在线流量提供服务，备用副本从在线版本复制数据以备不时之需。在这些功能的基础上，Amazon Redshift现在提供新的高可用配置功能以实现快速恢复，同时最大限度地降低数据丢失风险。借助Amazon Redshift多可用区功能，客户可以跨多个可用区部署集群，并且使用所有资源处理读写查询，取消低利用率的备用副本，最大限度地提高性价比。客户仍然可以像管理单个Amazon Redshift数据仓库那样，在一个端点管理多可用区数据仓库，无需更改应用即可保持业务连续性。要了解有关Amazon Redshift多可用区的更多信息，请访问aws.amazon.com/redshift/reliability。

riskCanvas是Genpact提供的一种软件即服务（SaaS）产品，是一种金融犯罪合规解决方案。它利用前沿的大数据、自动化和机器学习技术帮助客户保障合规，提高效率，实现自动化。“riskCanvas 的实体中心监控产品包含了对交易监测、外部资源、监测列表筛选和负面新闻的分析并自动评估风险，仅在客户的真实风险超过预定义阈值时提醒高风险客户，从而大大减少了满足合规要求的工作量。这需要大量的、多样化的分析处理，通常会遇到峰值和不可预测的数据负载。”riskCanvas 首席技术官兼Genpact金融犯罪技术副总裁Ryan Skousen表示，“我们很高兴可以使用Amazon OpenSearch Serverless。它可以自动扩展，满足我们工作负载的数据注入和分析处理需求，并可以随着需求的减少而缩减规模，大幅降低成本，所有这一切都不需要重新设计或维护。”

美国金融业监管局（FINRA）是美国一个面向公众开展业务的证券公司监管机构，负责监管股票、债券和期权交易。“FINRA在Amazon Athena上开发应用，使分析师和业务合作伙伴能够安全地查询每天更新的数TB金融交易数据。”FINRA 高级主管Ratnakar Korem表示，“我们很高兴看到Amazon Athena for Apache Spark的发布。它将把我们在使用Amazon Athena过程中非常满意的分析速度和易用性体验带到我们的按需分析和批处理分析。这种无服务器功能将使FINRA能够对大数据进行分析，不需要花精力明确定义计算资源和调整Apache Spark性能。这最终有助于监管用户和数据分析师快速响应不断变化的市场动态，节省时间和成本。”

美国联合航空公司经营着庞大的国内和国际航线网络，横跨美国和所有六大洲的大小城市。“联合航空公司正在为客户和员工构建数百个数据和分析驱动的工具，管理和维护数据质量对我们的运营至关重要。”联合航空公司数据工程总监Sarang Bapat表示，“我们很高兴使用Amazon Glue Data Quality。它将使我们能够在几分钟内自动识别和分析数据质量问题并采取行动，帮助我们做出明智、及时和准确的决策，并且节省大量花在手动定位和修复各种数据问题上的时间。”

杨森制药（Janssen Pharmaceuticals）是强生公司的子公司，致力于研究和生产药品，重点关注患者和医疗保健行业不断变化的需求。“杨森制药使用Amazon Redshift实现关键的洞察，赋能数据科学家、数据管理员、业务用户和外部利益相关者做出重要的业务决策。”强生旗下杨森制药信息技术总监Shyam Mohapatra表示，“Amazon Redshift的多可用区功能可以确保我们的数据仓库随时可用，确保我们可以及时做出重要业务决策。”