Dataiku 入门 - Core Designer-1-Interface & Data Exploration接口与数据探索
本课程面向零基础学员,介绍Dataiku平台的核心功能。主要内容包括:1)平台界面导航与数据可视化工具使用;2)无代码工作流搭建;3)协作仪表盘应用;4)CoreDesigner认证准备。课程通过信用卡欺诈检测案例,演示数据集上传、格式配置、质量分析等基础操作,重点讲解采样设置、列类型推断、图表创建(柱状图/饼图)等数据探索技巧。学习时长约3小时,完成后可掌握平台基本操作技能,适合业务分析师和数据
这是一个比较完整的课程,比起1会更丰富一些,但本质上也是1的内容,所以0基础从这一章开始看就好。文章仅包含了实战部分,concept部分可以看合集。
课程地址:https://academy.dataiku.com/path/core-designer
|
学习等级 |
ALL |
|
建议学习时长 |
整体课程大约需要3h |
|
画像 |
数据设计师(无代码业务&数据分析师) |
完成相关学习后,你将能够:
1.浏览平台界面,并借助图表及其他可视化工具来探索和分析你的数据。
2.使用可视化流程模板搭建无需代码的工作流。
3.学习通过仪表盘等工具开展协作的最佳实践。
4.参加 Core Designer( https://academy.dataiku.com/exam-course)认证考试。
Designer-Interface & Data Exploration
接口与数据探索
Step1:创建项目
注意:如果你还没有访问权限,可以通过Dataiku 官网 以两种方式开始:
1.开启为期 14 天的 Dataiku Cloud 免费试用。
2.安装免费版 (Free edition)。
https://www.dataiku.com/product/get-started/

1.在Dataiku 设计端 (Design) 主页,点击+New Project(+新项目)。
2.选择Learning projects(学习项目)。
3.搜索并选择Create Your First Project。
4.根据需要更改项目存放的文件夹,然后点击Create (创建)。

5.在项目主页,点击Go to Flow (前往流程图)(或按下快捷键g+f)。
Step2:创建数据集
假设你在一家金融公司工作,该公司利用信用卡数据来检测欺诈交易。该项目包含两个数据源(tx 和 merchants),你将添加第三个数据源(cards)。
下表描述了这三个数据集的具体内容:
|
数据集 |
描述 |
|
tx |
每一行代表一笔唯一的信用卡交易,包含参与购买的卡片和商户等信息。它还标明了交易状态: • 已授权(authorized_flag 列为 1) • 标记为潜在欺诈(分数为 0) |
|
merchants |
每一行代表一个唯一的商户,包含商户位置和类别等信息。 |
|
Cards |
每一行代表一个唯一的信用卡ID,包含卡片激活月份或持有者的 FICO 评分(美国衡量信用度的常用指标)等信息。 |
1,.在 Flow(流程图) 界面,点击 + Add Item > Upload。
2.随后会打开 New Uploaded Files Dataset(新建上传文件数据集) 页面。
注意 如果项目是空的,你会在项目主页看到一个蓝色的 + Import Your First Dataset 按钮。
3.点击 Select Files,选择你下载的 cards.csv 文件。
4.Dataiku 会显示 cards 数据集的预览。如你所见,数据呈表格格式,包含列(特征)和行(记录或观测值)。Dataiku 已根据文件名自动将数据集命名为 cards

5.保持名称不变,点击预览图上方的 Configure Format(配置格式) 按钮
6.在 Schema(架构) 选项卡中,点击 Infer Types From Data(从数据中推断类型),然后点击 Confirm。这样Dataiku 就会根据当前样本尝试推断正确的存储类型。
提示 将数据集上传到 Flow 后,你可以随时通过 Settings > Schema 选项卡查看其架构并重新推断类型。
7.检查结果无误后,点击 Create 按钮或使用快捷键 Cmd/Ctrl + S 完成导入。

操作完成后,系统将创建新数据集并带你进入 cards 数据集的 Explore(探索) 选项卡。
数据集采样(Dataset sampling)
处理大数据集时,Dataiku 不会一次性显示所有数据,而是显示一个较小的样本(Sample),以确保操作流畅且响应迅速。
1.查看采样:在Explore 选项卡左上角可以看到采样方法。默认显示前 10,000 条记录。
2.计算总行数:点击“计算行数 (Compute row count)”图标(循环箭头图标 ��)即可查看数据集的实际总量。

修改采样:点击 Sample 可打开左侧面板调整采样设置。
列的存储类型与含义
在数据集的每个列名下方,Dataiku 标注了:
Ø存储类型(Storage type):灰色字体。
Ø含义(Meaning):蓝色字体。
例如,对于id 列,Dataiku 会根据样本中 customer_id 大多为字符串的事实,自动将其含义检测为“文本”。

数据质量条(Data quality bar)
绿色:代表所有行均有效。
红色(NOK):代表数据无效(与含义不符)。
灰色:代表缺失值(Empty)。
分析窗口(Analyze window)
想深度调查某一列?使用Analyze 窗口。以 cardholder_fico_range 列为例:
1.点击列名,在下拉菜单中选择 Analyze。窗口打开后,默认显示的是样本分析。
2.分析全量数据:在列名旁的下拉菜单中将“Sample”改为 Whole data,然后点击 Save and Compute。使用列名旁的箭头可以快速切换至相邻列。

重要提示 在全量数据模式下切换列时,需再次点击窗口顶部的 Compute 才能显示新一列的全量分析结果(样本模式下则是自动计算的)。

图表(Charts)
我们来通过图表看看:对于特定的年龄段,哪种奖励计划(Reward program) 最受欢迎?
1. 添加垂直柱状图
1.点击 Charts 选项卡(或快捷键 g + v)。
2.从左侧 Data 面板拖拽变量:
将Count of records 拖至 Y 轴。
将reward_program 拖至 X 轴。
将cardholder_age 拖至颜色(水滴图标)字段。
初步发现:图表显示 cash_back(现金回馈)在各年龄段持卡人中都是最受欢迎的。
提示:点击顶部的 Sample 可以调整图表的采样方法。
3.优化分组:在 cardholder_age 变量的下拉菜单中,勾选 Adjust bin size for nicer bounds,使年龄分布更美观。

4.下钻探索(Drill down):鼠标悬停在橙色柱子(40-60 岁)上,点击出现的下钻图标(向下箭头),这会自动在左侧 Setup > Filters 中添加一个过滤器。


5.自定义外观:在 Format 选项卡中,你可以修改坐标轴标题或将颜色方案改为内置的 Pastel 2 调色盘。

2. 添加饼图
1.点击屏幕底部的 + Chart。
2.在图表类型中选择 Pie。
3.拖拽:Count of records 至 Show 字段,reward_program 至 By 字段。

更多推荐


所有评论(0)