阿里云EMR 2.0：重新定义新一代开源大数据平台

摘要：本文整理自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：1. 开源大数据的痛点及EMR产品历程2. EMR2.0 新特征3. 总结1►开源大数据的痛点及EMR产品历程1. 开源大数据的痛点如何提升性能，降低资源成本全面的性能优化需要大量的研发投入且门槛较高；大数据资源使用量大，广大用户都在不断探索降本方案。如何降低运维成本...

Apache Spark中国社区

912人浏览 · 2023-02-08 20:00:19

Apache Spark中国社区 · 2023-02-08 20:00:19 发布

摘要：本文整理自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容主要分为三个部分：

1. 开源大数据的痛点及EMR产品历程

2. EMR2.0 新特征

3. 总结

1►

开源大数据的痛点及EMR产品历程

1. 开源大数据的痛点

如何提升性能，降低资源成本

全面的性能优化需要大量的研发投入且门槛较高；大数据资源使用量大，广大用户都在不断探索降本方案。

如何降低运维成本

开源大数据组件众多，开发上手相对容易，但是一旦业务规模和业务复杂度上升以后，所带来的运维难度和开销也随之急剧上升。

如何保障数据和任务的可靠性

数据是公司的无形资产，数据的丢失往往是灾难性的，尽管有多副本，但是动辄几十台，甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事，而成千上万的任务实时或周期性的运行，也会消耗大量的运维投入。

如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据，也需要有方法论的支撑和产品支持。

2. EMR产品历程

如下图所示，自2016年阿里云推出EMR以来，阿里云EMR团队一直致力于解决以上痛点。

通过一系列的性能优化，阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩，推出了全托管的元数据和数据湖产品，大大降低了运维难度和运维成本。

通过 DataWorks on EMR 以及 EMR Studio 等产品，大大简化了数据开发以及数据治理的接入门槛。

2►

EMR2.0 新特征

1. 概述

基于云原生的理念和阿里云上日益成熟的设施，阿里云推出 EMR 2.0，构建新一代开源大数据的基础设施。

EMR 2.0的新特征包括：

全新平台体验

集群创建速度2倍以上优化
集群扩容速度3倍以上提升
弹性规模支持千台以上
故障节点迁移
集群诊断工具

全新数据开发

全托管EMR Notebook (Jupyter)
Workflow (Dolphinscheduler)
数据开发治理平台Dataworks on EMR

全新资源形态

EMR on ECS，支持倚天g8，性价比提升超过40%
EMR on ACK(K8s)
EMR Serverless

全新分析场景

新版数据湖
数据分析
数据服务
实时数据流
数据科学

2. EMR 2.0产品架构

如下图所示，EMR 2.0产品架构自下而上包括：

硬件资源

EMR 2.0支持ECS（Intel, AMD, 倚天）/神龙/ECI

存储资源

在存储资源上，数据湖架构已经已经逐步成为业界的共识，阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API

调度资源

支持 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

监控告警
弹性调度
集群诊断
故障补偿
权限&安全
组件管理

分析场景

新版数据湖 Datalake
数据分析 OLAP
实时数据流 Dataflow
数据服务 DataServing
数据科学 DataScience

开发工具

开源解决方案 EMR Studio (Notebook, Workflow)
企业级开发平台 DataWorks on EMR

元数据管理和湖管理

在原有的数据湖构建DLF上新增了权限生命周期管理、湖管理等新特性。

3. 全新平台体验

阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。

Elasticity 弹性

集群创建，弹性性能大幅提升
异构实例，竞价实例满足个性化弹性需求

Stability 稳定性

节点迁移，故障节点自动补偿
组件状态巡检，事件通知

Intelligence 智能

集群资源诊断
风险预警
实时检测

Efficiency 效率

交互式数据开发
一键任务提交
配置导出&集群克隆

4. 全新数据开发

EMR 2.0提供两套解决方案供不同用户选择，分别是：基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案，和阿里云自研的企业级数据开发与治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

基于 Jupyter 的全托管SaaS化的 Notebook

- 直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联，几分钟内就可以开始对数据进行分析，无需担心代码的保存以及计算资源维护；
- 对 Jupyter Notebook 进行了优化：如支持 StarRocks 快速指定引擎类型。

基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

- 开箱即用，一键关联集群。

EMR Studio 提供了全新的开源数据开发体验，在EMR服务费之外，不收取额外费用。

DataWorks on EMR，企业级数据开发与治理

DataWorks 是一套在阿里内部历经几万用户十几年打磨的产品，能够满足企业一站式数据开发和数据治理的诉求。DataWorks 支持数据集成、数据开发调度、数据建模、数据质量、数据地图、数据安全、数据分析、数据服务以及开放的API等能力：

数据集成：基于DataX，支持几十种数据源作为 source 和 sink 进行数据同步；
数据开发：线上的 IDE，支持 Spark、Hive、Presto、ClickHouse 的开发；
数据质量：根据任务配置的规则，对任务的产出结果进行正确性验证；
数据地图：采集字段级粒度的数据血缘；
数据安全：提供表和字段级别的权限管理；
数据分析：提供快速交互式的分析和可视化分析能力；
数据服务：简化数据查询服务的开发，通过写 SQL 就可以提供数据查询的接口；
开发平台：提供一系列的 API 供用户进行二次开发。

5. 全新资源形态

随着云原生技术越来越成熟，EMR 也提供了各种资源管理形态。

EMR on ECS

支持组件最全，自定义能力最强；
跟传统模式最接近，便于快速迁移。

EMR on ACK

完全兼容 K8S，10秒级资源调度；
支持 Spark, Flink, Presto, RSS 组件；
配合 ECI，自动弹性，秒级扩容；
完整的任务提交、管理、监控能力。

EMR Serverless

首先推出的是 StarRocks；
全托管，最小化的运维成本；
高可用，SLA 99.99%；
开箱即用，对接 EMR Notebook；
成本低，按需扩容资源。

新硬件，倚天性价比提升40%以上

在2022年云栖大会上，阿里云推出了中国首个云上大规模应用自研CPU倚天710，EMR2.0 也将推出倚天机型。倚天采用最先进的ARM架构和生产工艺，在通用智能性能提升的基础上，降低了整体的资源成本：

在ECS价格方面，倚天G8系列较X86的机器系列价格降低20%以上，计算型系列价格降低超过30%，大幅降低企业成本；
在性能方面，物理核的倚天机型性能更高，CPU占用率更低；在EMR对倚天机型适配后，进行了 TPC-DS 的 Benchmark 测试，在G8Y与G7的对比中，同样采用了六台8core 32G的机型，倚天的TPC-DS耗时减少25%。