sklearn实现数据标准化（Standardization）和归一化（Normalization）

sklearn的标准化过程，即包括Z-Score标准化，也包括0-1标准化，并且即可以通过实用函数来进行标准化处理，同时也可以利用评估器来执行标准化过程。

恒c

3101人浏览 · 2024-02-04 17:52:43

恒c · 2024-02-04 17:52:43 发布

标准化（Standardization）

sklearn的标准化过程，即包括Z-Score标准化，也包括0-1标准化，并且即可以通过实用函数来进行标准化处理，同时也可以利用评估器来执行标准化过程。接下来我们分不同功能以的不同实现形式来进行讨论：

Z-Score标准化的评估器实现方法

#首先是评估器导入
from sklearn.preprocessing import StandardScaler

#评估器的实例化
scaler = StandardScaler()

#然后导入数据，进行训练，此处也是使用fit函数进行训练：
X = np.arange(15).reshape(5, 3)
scaler.fit(X)

# 查看训练数据各列的标准差
scaler.scale_
# 查看训练数据各列的均值
scaler.mean_
# 查看训练数据各列的方差
scaler.var_
# 总共有效的训练数据条数
scaler.n_samples_seen_

# 利用均值和方差对训练集进行标准化处理
scaler.transform(X)

0-1标准化的评估器实现方法

from sklearn.preprocessing import MinMaxScaler

#然后导入数据，进行训练
X = np.arange(15).reshape(5, 3)
scaler = MinMaxScaler()
scaler.fit_transform(X)

归一化Normalization

和标准化不同，sklearn中的归一化特指将单个样本（一行数据）放缩为单位范数（1范数或者2范数为单位范数）的过程，归一化也有函数实现和评估器实现两种方法。
此前我们曾解释到关于范数的基本概念，假设向量 $x = [x_1, x_2, ..., x_n]^T$ ，则向量x的1-范数的基本计算公式为：
$x||_1 = |x_1|+|x_2|+...+|x_n|$
即各分量的绝对值之和。而向量x的2-范数计算公式为：
$||x||_2=\sqrt{(|x_1|^2+|x_2|^2+...+|x_n|^2)}$
我们可以调用评估器来实现上述过程

from sklearn.preprocessing import Normalizer

#导入数据，进行训练
X = np.arange(15).reshape(5, 3)

# L2 （默认）
normlize = Normalizer()
normlize.fit_transform(X)

# L1 
normlize = Normalizer(norm='l1')
normlize.fit_transform(X)

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

GitOps 全流程落地：ArgoCD+GitLab CI（K8s 1.33 兼容）

核心就是 “AI 提前算，HPA 执行，闲时保底缩，峰值提前扩”。对你来说，落地的关键是：先搭指标采集→用简单的 ARIMA 模型跑通预测→动态更新 HPA→加监控闭环，先小范围试点（比如一个核心服务），验证成本和稳定性后再全量推广。整个流程兼容 K8s 1.33，都是原生组件 + 简单脚本，没有黑科技，易落地易维护。