天天观点：亚马逊云科技发布两项新功能帮助客户迈向Zero-ETL未来_创新

Amazon Aurora zero-ETL与Amazon Redshift 集成的功能助力客户近乎实时地分析 PB 级交易数据，无需自定义数据管道

面向 Apache Spark的Amazon Redshift集成功能帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过Apache Spark 应用程序访问到Redshift上的数据

(相关资料图)

亚马逊云科技在2022 re:Invent全球大会上发布两项全新的集成功能，使客户可以连接和分析多地存储的数据，无需在不同服务间进行数据迁移。客户可以使用Amazon Redshift近乎实时地分析Amazon Aurora中的数据，无需在不同服务之间提取、转换和加载（ETL）数据。客户还可以使用亚马逊云科技的分析和机器学习服务（如 Amazon EMR、Amazon Glue和Amazon SageMaker）在Amazon Redshift的数据上轻松运行 Apache Spark应用程序。这两项新功能共同帮助客户在亚马逊云科技上迈向一个"Zero-ETL的未来"。

"当前，客户管理的数据既庞大又复杂，这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。我们的许多客户都通过亚马逊云科技的众多数据库和分析服务从数据中提取价值。确保他们能够使用正确的工具完成工作，对于他们的企业成功非常重要。"亚马逊云科技数据库、分析和机器学习副总裁 Swami Sivasubramanian表示，"今天发布的新功能帮助我们的客户在亚马逊云科技上迈向一个‘Zero-ETL的未来"，减少在不同服务间手动迁移或转换数据的工作。无论企业和数据的规模有多大，复杂度有多高，通过为客户消除 ETL 和其它数据迁移任务，我们都能助力客户专注于分析数据，面向业务获取新的洞察。"

数据是所有应用程序、流程和业务决策的核心，也几乎是每个企业数字化转型的基石。但是，现实世界的数据系统通常既庞大又复杂，各种数据分散在多个云服务和本地系统中。许多企业坐拥大量数据，希望最大限度地从数据中获得价值。亚马逊云科技提供了一系列专门构建的工具，例如 Amazon Aurora用于将交易数据存储在与 MySQL 和 PostgreSQL 兼容的关系数据库中，Amazon Redshift用于在PB级数据上运行高性能数据仓库和分析工作负载。但要真正实现数据价值最大化，客户需要这些工具无缝协作。因此，亚马逊云科技投入开发了基于Zero-ETL理念的功能，例如 Amazon Aurora ML 和 Amazon Redshift ML，让客户可以在机器学习用例受益于Amazon SageMaker的功能，而无需在不同服务间迁移数据。此外，亚马逊云科技确保可以从流式服务（如Amazon Kinesis 和 Amazon MSK）向广泛的数据存储服务（如Amazon S3和Amazon OpenSearch Service）无缝注入数据，从而助力客户及时分析数据。亚马逊云科技数据库和分析产品组合性能卓越，集成深入，在此基础之上此次发布的新功能会助力客户更快、更轻松、更经济高效地访问和分析存储在亚马逊云科技上的数据。

Amazon Aurora zero-ETL与Amazon Redshift 集成的功能助力客户轻松使用Amazon Redshift对 Amazon Aurora中的交易数据进行近乎实时的PB级分析

企业希望更好地了解核心业务驱动因素，制定战略以增加销售额、降低成本、获得竞争优势，因此，近乎实时地从购买、预订和金融交易等交易数据中获得洞察的需求不断增加。当前，许多企业用以分析交易数据的解决方案分为三部分：用关系数据库存储数据，用数据仓库分析数据，并用数据管道在关系数据库和数据仓库之间提取、转换和加载（ETL）数据。数据管道构建成本高昂且难以管理，需要开发人员编写自定义代码，并且持续管理基础设施以确保其按需扩展。一些公司甚至需要投入整个团队以完成这项工作。此外，用这种方式准备好数据可能需要几天的时间，而且间歇性的数据传输错误会影响客户获得稍纵即逝的洞察，甚至错失商机。

借助Amazon Redshift集成的Amazon Aurora zero-ETL功能，交易数据在写入Amazon Aurora后的几秒钟内可以自动连续复制，使其在Amazon Redshift中即时可用。一旦数据在Amazon Redshift中可用，客户立即可以开始分析数据，并且应用数据共享和Amazon Redshift ML等高级功能获得全面的预测性洞察。客户可以将数据从多个Amazon Aurora数据库集群复制到同一个Amazon Redshift实例，跨多个应用程序获得洞察。如此，客户可以使用Amazon Aurora支持交易数据库需求，使用 Amazon Redshift进行分析，无需构建或维护复杂的数据管道。

面向Apache Spark的Amazon Redshift集成功能帮助客户在使用亚马逊云科技的分析和机器学习服务时可以更快更轻松地通过Apache Spark 应用程序访问到Redshift上的数据。

许多开发人员使用Apache Spark（一种用于大数据工作负载的开源处理框架）来支持各种分析和机器学习应用程序。当前，亚马逊云科技支持在Amazon EMR、Amazon Glue和Amazon SageMaker上运行 Apache Spark，功能完全兼容，优化后的运行时间比开源版本快3倍。客户通常希望直接从这些服务中分析Amazon Redshift中的数据。他们需要经历复杂、耗时的过程查找、测试和认证第三方连接器，以在他们的环境和Amazon Redshift之间读取和写入数据。即使找到连接器，客户还必须管理中间的数据暂存位置（如Amazon S3），以便从Amazon Redshift读取和写入数据。所有这些挑战都增加了操作的复杂性，使客户难以充分利用Apache Spark。

面向Apache Spark的Amazon Redshift集成功能使开发人员可以轻松地使用亚马逊云科技支持的分析和机器学习服务，在Amazon Redshift数据上构建和运行Apache Spark应用程序。该集成功能由亚马逊云科技认证、打包和支持，消除了与第三方连接器相关的繁琐而且容易出错的过程。开发人员可以使用流行的语言框架（如 Java、Python、R和Scala），在几秒钟内开始从基于Apache Spark的应用程序对 Amazon Redshift 数据运行查询指令。中间数据暂存位置是自动管理的，客户无需在应用程序代码中配置和管理这些位置。

从个人和小型企业到政府机构和全球品牌，Adobe使每个人都能创造和交付卓越的数字体验。"Adobe 的使命是通过数字体验改变世界，在当今世界，这意味着拥有能够提供深刻和实时洞察的分析工具。" Adobe Acrobat Sign 首席科学家Jack Lull表示，"作为 Amazon Aurora 的客户，我们非常欢迎Amazon Redshift集成的Amazon Aurora zero-ETL功能。它将为我们不断扩大的Acrobat Sign 客户群提供新的洞察和更快的分析能力，并随着他们用量的增加而同步增长。所有这些都不需要我们自己的团队做日常维护。"

Infor是商业云软件和特定行业ERP解决方案的全球领导者。"在Infor，我们使用亚马逊云科技构建和部署现代化的工具，帮助客户转型其业务并加速创新，其中包括我们最新提供的面向客户行业云数据的托管数据仓库服务，以帮助客户通过高级分析和机器学习更快地做出决策。"Infor云服务高级副总裁Jim Plourde表示，"我们很高兴使用Amazon Redshift集成的Amazon Aurora zero-ETL功能，它将让Amazon Aurora中的交易数据近乎实时地提供给Amazon Redshift，减轻我们的运营负担。现在，我们既可以受益于Amazon Aurora用作关系数据库管理系统的性能，又可以轻松利用 Amazon Redshift的分析和机器学习功能实现新的托管数据仓库服务。"

高盛集团是一家领先的全球金融机构，为包括企业、金融机构、政府和个人在内的庞大而多元化的客户群提供投资银行、证券、投资管理和消费者银行业务等广泛的金融服务。 "我们的重点是为高盛内所有用户提供自助式数据访问。当在整个金融服务行业开展协作时，我们通过开源数据管理和治理平台Legend可以助力用户开发以数据为中心的应用程序，并且获得数据驱动的洞察。"高盛首席数据官Neema Raphael 表示，"通过面向Apache Spark的Amazon Redshift集成功能，我们的数据平台团队以最少的定制化操作就可以访问Amazon Redshift数据，实现零代码ETL，使我们更有能力在工程师收集完整及时的信息时，让他们更容易专注于完善其工作流。由于我们的用户现在可以轻松访问Amazon Redshift中的最新数据，我们将能实现更高的应用程序性能和更强的安全性。"