Iceberg在Hadoop集群使用步骤(适配AI大模型)
摘要:本文详细介绍了在Cloudera Data Platform(CDP)集群中使用Apache Iceberg的完整步骤。主要内容包括:环境要求(CDP 7.1.7+版本、Spark3.x)、通过Cloudera Manager配置Spark启用Iceberg支持、使用SparkSQL创建和管理Iceberg表、数据操作(增删改查/TimeTravel)、表结构变更等核心功能。同时说明了Ice
Iceberg在Hadoop集群使用步骤
在 Cloudera Data Platform(CDP) 集群中使用 Apache Iceberg,需结合 CDP 的集成能力(如 Spark 3、Hive Metastore、Catalog 支持等)。以下是 完整、可操作的使用步骤(适用于 CDP Private Cloud Base/Experience 7.1.7+ 或 CDP Public Cloud,截至 2025 年):
✅ 一、前提条件
1. CDP 版本要求
- CDP Private Cloud:7.1.7 SP1 或更高(推荐 7.2+)
- CDP Public Cloud:已启用 Data Engineering (DE) 或 Data Warehouse (DW) 环境
- 已安装 Spark 3.x(Iceberg 仅支持 Spark 3+)
2. 组件依赖
|
组件 |
要求 |
|
Spark |
≥ 3.1(推荐 3.2+) |
|
Hive Metastore |
必须运行(Iceberg 默认使用 Hive Catalog) |
|
存储 |
HDFS / S3A / Ozone(需配置访问权限) |
|
Cloudera Manager |
≥ 7.7.3(Private Cloud) |
⚠️ 注意:CDP 不支持 Nessie Catalog(截至 7.2),仅支持 Hive Catalog。
🔧 二、启用 Iceberg 支持(CDP Private Cloud)
步骤 1:在 Cloudera Manager 中配置 Spark 启用 Iceberg
- 登录 Cloudera Manager Web UI
- 进入 Spark 3 → Configuration
- 搜索 spark.sql.extensions
- 添加值:org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
- 搜索 spark.sql.catalog.spark_catalog
- 设置为:
org.apache.iceberg.spark.SparkSessionCatalog
- 搜索 spark.sql.catalog.spark_catalog.type
- 设置为:hive
- (可选)设置默认仓库路径:
- spark.sql.catalog.spark_catalog.warehouse = hdfs://nameservice1/warehouse/iceberg
💡 提示:上述配置将 spark_catalog 设为 Iceberg 的 Hive Catalog,使 CREATE TABLE 默认创建 Iceberg 表。
步骤 2:重启 Spark 服务
- 在 CM 中 重启 Spark 3 History Server 和 Gateway
🧪 三、使用 Iceberg(通过 Spark SQL)
方式 1:在 Spark Shell / Beeline / Hue 中操作
1. 启动 Spark SQL 客户端
Bash:
# 在 CDP 集群节点执行
spark3-sql --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \
--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \
--conf spark.sql.catalog.spark_catalog.type=hive
2. 创建 Iceberg 表
Sql:
-- 创建数据库(如果不存在)
CREATE DATABASE IF NOT EXISTS iceberg_db;
-- 使用数据库
USE iceberg_db;
-- 创建 Iceberg 表(自动识别为 Iceberg 格式)
CREATE TABLE customer (
id BIGINT,
name STRING,
email STRING,
ts TIMESTAMP
) USING iceberg
PARTITIONED BY (days(ts));
✅ 关键:USING iceberg 显式指定格式(即使配置了默认 catalog 也建议写明)
3. 写入数据
Sql:
INSERT INTO customer VALUES
(1, 'Alice', 'alice@example.com', current_timestamp()),
(2, 'Bob', 'bob@example.com', current_timestamp());
4. 查询与 Time Travel
Sql:
-- 普通查询
SELECT * FROM customer;
-- 查看快照历史
SELECT * FROM customer.history;
-- 时间旅行查询(按快照 ID)
SELECT * FROM customer VERSION AS OF 123456789;
-- 或按时间戳
SELECT * FROM customer FOR TIMESTAMP AS OF '2025-12-17 10:00:00';
5. Schema Evolution(安全改表结构)
Sql:
-- 添加列
ALTER TABLE customer ADD COLUMN phone STRING;
-- 删除列(CDP 7.2+ 支持)
ALTER TABLE customer DROP COLUMN email;
📁 四、目录结构与元数据位置
Iceberg 表在 HDFS/S3 上生成标准目录结构:
/warehouse/iceberg/
└── iceberg_db.db/
└── customer/
├── metadata/
│ ├── snap-123456789-1-a1b2c3d4.metadata.json
│ ├── v1.metadata.json
│ └── ...
└── data/
└── dt=2025-12-17/
└── xxx.parquet
- metadata/:存储快照、manifest、schema 变更历史
- data/:实际数据文件(Parquet/ORC)
🔍 可通过 DESCRIBE FORMATTED customer; 查看表路径和格式。
⚙️ 五、高级功能(CDP 支持情况)
|
功能 |
CDP 支持 |
说明 |
|
Row-Level Delete |
✅ 7.2+ |
DELETE FROM customer WHERE id = 1; |
|
Merge Into(Upsert) |
✅ |
需 Spark 3.2+,语法:MERGE INTO ... WHEN MATCHED THEN UPDATE ... |
|
Time Travel |
✅ |
完整支持 VERSION AS OF / TIMESTAMP AS OF |
|
Partition Evolution |
✅ |
ALTER TABLE ... SET PARTITION SPEC (...) |
|
Replication Manager 复制 |
✅ 7.1.7 SP1+ |
通过 RM 复制 Iceberg 表(需选 "Replicate using metadata files") |
|
Trino/Presto 查询 |
❌(Private Cloud) |
CDP Private Cloud 默认不集成 Trino;Public Cloud 可通过 DW 查询 |
🛠 六、常见问题排查
|
问题 |
解决方案 |
|
报错:Cannot find catalog spark_catalog |
检查 Spark 配置是否包含 spark.sql.catalog.spark_catalog=... |
|
CREATE TABLE 仍是 Hive 表 |
确认是否写了 USING iceberg,或检查 spark_catalog 是否被覆盖 |
|
权限拒绝(Permission denied) |
确保用户对 /warehouse/iceberg 有读写权限(HDFS ACL / S3 Policy) |
|
Kerberos 认证失败 |
在 Spark 提交时添加 --keytab 和 --principal |
📚 官方参考文档
- Cloudera Docs: Using Iceberg Tables in CDP
- CDP Public Cloud: Iceberg with Data Engineering
✅ 总结:CDP 中使用 Iceberg 的核心流程
1. 配置 Spark 启用 Iceberg 扩展 + Hive Catalog
2. 通过 Spark SQL 创建 USING iceberg 表
3. 使用标准 SQL 进行 INSERT/UPDATE/DELETE/TIME TRAVEL
4. 利用 Replication Manager 实现灾备同步(可选)
Iceberg 在 CDP 中已深度集成,是构建 湖仓一体(Lakehouse) 架构的首选格式。
更多推荐


所有评论(0)