下载地址:

https://pan.baidu.com/s/1PDj6dySUNHotNABp7d1a0w?pwd=57is 提取码: 57is 

查找“Hadoop信创”,输入“CMP”恢复最新下载地址

博文末尾处有下载方式:

    银行智能数据平台在 Cloudera CDP 7.3(或国产 CMP 鲲鹏版) 平台下的具体使用配置流程,是一个涵盖 安全认证、数据接入、计算调度、AI 建模、治理监控 的全链路工程。以下是基于银行实际生产环境的 分步配置操作指南,结合了金融行业合规要求与 Cloudera CDP 的企业级能力。


一、前置条件确认

在开始配置前,需确保以下条件已满足 :

项目

要求

CDP 版本

CDP Private Cloud Base/Plus 7.3.x(非 Public Cloud)

部署模式

On-premises(物理机/VM),支持 Kerberos + TLS

网络

与银行智能平台同内网,防火墙开放 Knox、HiveServer2、Livy 等端口

身份源

已部署 Active Directory 或 LDAP

证书

银行内部 CA 可签发 TLS 证书


二、分步配置流程

步骤 1:启用安全认证(Kerberos + LDAP

目标:实现统一身份认证,满足等保三级要求。

  1. 在 Cloudera Manager 中操作:
    • 进入 Administration → Settings → Security
    • 启用 Kerberos 认证,选择 KDC 类型(如 Microsoft AD)
  2. 配置 LDAP 同步:

Yaml

External Authentication → LDAP

Server URL: ldaps://ad.bank.local:636

Bind DN: svc_CMP@bank.local

User Search Base: OU=Users,DC=bank,DC=local

Group Search Base: OU=Groups,DC=bank,DC=local

  1. 测试登录:通过 Hue 或 CML 使用域账号登录验证 。

步骤 2:配置 Knox 作为统一入口(关键!)

目标:隐藏内部组件 IP,集中 TLS 加密与认证。

  1. 启用 Knox 服务;
  2. 编辑 Topology 文件 CMP-gateway.xml:

xml

<topology>

  <gateway>

    <provider>

      <role>authentication</role>

      <name>ShiroProvider</name>

      <enabled>true</enabled>

      <param><name>sessionTimeout</name><value>30</value></param>

    </provider>

  </gateway>

  <service>

    <role>HIVE</role>

    <url>http://hive-server2:10001/cliservice</url>

  </service>

  <service>

    <role>SPARKLIVY</role>

    <url>http://livy-server:8998</url>

  </service>

  <service>

    <role>CML</role>

    <url>https://cml-master:443</url>

  </service>

</topology>

  1. 所有外部访问必须通过:

text

https://knox-host:8443/gateway/CMP-gateway/...

✅ 优势:统一入口、TLS 加密、集中审计 。


步骤 3:对接银行五大核心平台(数据接入)

目标:将核心系统、渠道、风控等数据安全入湖。

数据源

接入方案

技术组件

核心银行系统(交易流水)

CDC + 脱敏

Debezium → Kafka → NiFi → HDFS/Iceberg

渠道平台(APP/网银日志)

实时流接入

埋点日志 → Kafka → CSA (Flink) → Iceberg

风控平台(特征请求)

实时特征服务

CML Feature Store + Redis

开放银行(API 输出)

受控数据服务

NiFi InvokeHTTP / CML Flask API

示例:NiFi Flow 配置(T+1 交易数据入湖)

  • Input:JDBC 连接 Oracle 核心库(Kerberos 认证)
  • Process:Validate → Convert to Parquet → PII 字段动态脱敏
  • Output:PutHDFS → /data/ods/txn_daily/yyyyMMdd/

步骤 4:配置计算与 AI 建模环境

目标:支持批处理、流计算、机器学习。

  1. 批处理(ETL/标签生成):
    • 使用 Cloud Data Engineering (CDE) 调度 Spark 作业
    • 示例:每日跑批生成“客户风险评分”
  2. 实时计算(交易监控):
    • 使用 Cloud Streaming Analytics (CSA) 运行 Flink 作业
    • 实时检测异常交易,写入 Kafka 供风控消费
  3. AI 模型训练:
    • 在 Cloudera Machine Learning (CML) 中创建 Project
    • 使用 PySpark/TensorFlow 训练模型
    • 特征来自 CML Feature Store(支持在线/离线)

Python 示例:通过 Livy 提交 Spark 作业

python

import requests

livy_url = "https://knox.bank.local:8443/gateway/CMP-gateway/livy/v1/batches"

headers = {"Content-Type": "application/json", "Authorization": "Basic base64(user:pass)"}

payload = {

    "file": "hdfs:///apps/risk_score.py",

    "className": "com.bank.RiskScoring",

    "args": ["--date", "2026-01-20"]

}

response = requests.post(livy_url, json=payload, headers=headers)


步骤 5:数据治理与安全合规

目标:满足《个人金融信息保护法》、等保三级。

  1. 字段级权限控制:
    • 在 Ranger 中配置策略:
      • “仅风控团队可查身份证号”
      • “普通分析师只能访问脱敏手机号”
  2. 数据血缘追踪:
    • Atlas 自动记录:核心系统表 → Iceberg 表 → 风控模型
  3. 动态脱敏:
    • 对 PII 字段(身份证、银行卡号)在读取时自动掩码
  4. 审计日志:
    • 所有数据访问记录同步至银行 SIEM 系统 。

步骤 6:BI 与数据服务发布

目标:为业务部门提供自助分析能力。

  1. BI 查询:
    • 通过 Cloud Data Warehouse (CDW) 提供亚秒级 SQL 响应
    • 对接 Tableau/PowerBI,构建监管报表
  2. API 服务:
    • 使用 CML 发布 Flask API,例如:

python

@app.route('/api/customer/summary')

def get_summary():

    # 从 Iceberg 表查询近30天交易汇总

    return jsonify(data)

    • 通过 Knox 网关暴露,支持 Token 认证 。

三、运维与监控

  • 资源管理:通过 YARN 队列隔离开发、测试、生产任务;
  • SLA 监控:集成 Prometheus + Grafana,监控 Spark 作业延迟;
  • 灾备:Iceberg 表启用跨区域快照复制(Snapshot Replication);
  • 版本管理:CML 支持模型版本回滚,NiFi Flow 支持导入导出 。

四、实施路线图建议

阶段

目标

阶段 1

接入渠道日志 + 核心交易数据,构建基础数据湖

阶段2

上线客户标签体系 + 风控特征工程,对接风控平台

阶段3

开放数据服务 API,支持开放银行场景

阶段4

全面启用 SDX 治理,实现自动化合规审计


总结

银行智能数据平台在 CDP 7 下的配置,不是简单的软件安装,而是一套融合安全、数据、AI、治理的体系化工程。其核心在于:

  • 以 Knox 为统一入口,保障访问安全;
  • 以 Iceberg 为湖仓格式,支持 ACID 与 Time Travel;
  • 以 Ranger+Atlas 为治理底座,实现合规可控;
  • 以 CML+CDE 为智能引擎,驱动业务创新。

最终目标:构建一个 “数据不出域、过程可审计、模型可迭代、服务可计量” 的银行级智能数据平台。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐