分享一个kaggle上看到的项目:

在当今数据驱动的时代,机器学习模型已成为解决各类预测问题的核心工具。从数据预处理到模型训练,再到最终的预测部署,每一步都需要精心设计和优化。本文将深入解析一段完整的数据处理与模型训练预测代码,帮助中级读者理解其中的技术细节和实现逻辑。

随着机器学习技术的不断发展,梯度提升框架已成为处理结构化数据的首选方法之一。LightGBM、XGBoost 和 CatBoost 作为当前最流行的三种梯度提升库,各有特色,在各类数据科学竞赛和工业应用中表现出色。本文将详细介绍如何将这些强大的工具组合起来,构建一个高效、可扩展的数据处理与模型训练预测流程。

梯度提升框架详解

导入必要的库

import os
import math
import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.impute import SimpleImputer
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from catboost import CatBoostRegressor

代码解析:
首先,我们导入了一系列必要的库。os和math提供了基本的操作系统接口和数学函数。numpy和pandas是数据处理和分析的核心库,用于高效地操作和处理数据。
接下来是scikit-learn中的多个模块:
◦ StratifiedKFold和KFold用于交叉验证,确保数据划分的合理性
◦ mean_squared_error用于计算均方误差,评估模型性能
◦ StandardScaler用于特征标准化
◦ PCA用于主成分分析,进行特征降维
◦ SimpleImputer用于处理缺失值

最后,我们导入了三个梯度提升模型库:LightGBM、XGBoost和CatBoost,这些是我们将使用的主要建模工具——截至如今,这些库仍然是数据科学领域的主流选择。LightGBM 在处理大规模数据时表现出色,具有较低的内存使用和更快的训练速度。XGBoost 已经更新到 1.7.8.1 版本,进一步优化了性能和稳定性。CatBoost 则在处理类别特征方面保持领先地位,最新版本增强了对文本和嵌入特征的支持。

配置参数设置

# 随机种子设置
SEED = 42
np.random.seed(SEED)
# 交叉验证参数
N_FOLDS = 5
CV_SEEDS = [42, 101, 202, 303, 404]
# 数据路径
DATA_DIR = "./data/"
# 列定义
ID_COL = "id"
TARGET_COL = "target"
BASE_NUM_COLS = [
"num_0", "num_1", "num_2", "num_3", "num_4",
"num_5", "num_6", "num_7", "num_8", "num_9"
]

代码解析:
在这一部分,我们设置了多个关键参数:

  1. 随机种子: 固定随机种子SEED为 42,确保所有随机操作的可重复性。这在开发和调试阶段尤为重要,能够保证每次运行代码都得到相同的结果。
  2. 交叉验证参数:
    • N_FOLDS设置为 5,将数据集划分为 5 个折叠进行交叉验证
    • CV_SEEDS定义了不同的随机种子列表,用于每次折叠的不同随机初始化
  3. 数据路径: DATA_DIR指定了数据存储的目录,便于后续数据加载操作
  4. 列定义:
    • ID_COL指定了唯一标识列
    • TARGET_COL指定了目标变量列
    • BASE_NUM_COLS列出了基础数值特征列

交叉验证仍然是模型评估的黄金标准,尽管一些先进的时间序列和空间数据可能需要更复杂的验证策略。在 CatBoost 等库中,已经内置了更高级的交叉验证功能,可以自动处理类别特征和缺失值。

工具函数定义

def rmse(y_true, y_pred):
	return math.sqrt(mean_squared_error(y_true, y_pred))
class CVResult:
	def __init__(self):
		self.models = []
		self.train_scores = []
		self.valid_scores = []
		self.importance = None
		self.best_iterations = []

代码解析:
定义了两个工具函数:

  1. RMSE 函数: 计算均方根误差,这是回归问题中常用的评估指标。它是均方误差的平方根,具有与目标变量相同的量纲,便于解释。
  2. CVResult 类: 用于存储交叉验证结果的类,包含以下属性:
    • models:存储各折训练好的模型
    • train_scores:存储各折的训练集得分
    • valid_scores:存储各折的验证集得分
    • importance:特征重要性(如果有)
    • best_iterations:各折的最佳迭代次数(适用于支持提前停止的模型)

在最新的机器学习库中,已经内置了更完善的评估指标和结果存储功能。例如,-
XGBoost 和 LightGBM 都提供了详细的训练日志和模型诊断工具。CatBoost 则提供了更直观的可视化工具,帮助用户理解模型行为。

特征工程实现

分箱函数设计

def compute_bin_edges(feature, n_bins=10):
	quantiles = np.linspace(0, 1, n_bins + 1)
	bin_edges = np.percentile(feature, quantiles * 100) return bin_edges
def apply_bins(feature, bin_edges):
	return np.digitize(feature, bin_edges, right=True)

代码解析:
这两个函数用于实现特征分箱(离散化):

  1. compute_bin_edges:
    • 使用np.linspace生成均匀分布的分位数点
    • 通过np.percentile计算特征在这些分位数点上的值,作为分箱边界
    • 返回分箱边界数组
  2. apply_bins:
    • 使用np.digitize将特征值映射到对应的箱中
    • right=True表示区间是左开右闭的,即(a, b]的形式

分箱技术仍然是特征工程中的重要技术,尤其是在处理异常值和非线性关系时。自适应分箱方法(如基于目标变量分布的分箱)在提高模型性能方面表现更佳。一些先进的库已经内置了自动分箱功能,能够根据数据特征和目标变量智能确定最佳分箱策略。

完整特征工程流程

def build_features(train_df, test_df):
    # 复制数据以避免修改原始数据
    train = train_df.copy()
    test = test_df.copy()
    
    # 基础数值特征处理
    for col in BASE_NUM_COLS:
        # 分箱处理
        bin_edges = compute_bin_edges(train[col], n_bins=10)
        train[f"{col}_bin"] = apply_bins(train[col], bin_edges)
        test[f"{col}_bin"] = apply_bins(test[col], bin_edges)
        
        # 特征交互
        train[f"{col}_squared"] = train[col] ** 2
        test[f"{col}_squared"] = test[col] ** 2
        
        train[f"{col}_log"] = np.log(train[col] + 1)
        test[f"{col}_log"] = np.log(test[col] + 1)
        
        # 特征组合
        if col != BASE_NUM_COLS[-1]:
            next_col = BASE_NUM_COLS[BASE_NUM_COLS.index(col) + 1]
            train[f"{col}_times_{next_col}"] = train[col] * train[next_col]
            test[f"{col}_times_{next_col}"] = test[col] * test[next_col]
    
    # 标准化处理
    scaler = StandardScaler()
    scaled_features = scaler.fit_transform(train[BASE_NUM_COLS])
    train_scaled = pd.DataFrame(scaled_features, columns=[f"{col}_scaled" for col in BASE_NUM_COLS], index=train.index)
    train = pd.concat([train, train_scaled], axis=1)
    
    scaled_features = scaler.transform(test[BASE_NUM_COLS])
    test_scaled = pd.DataFrame(scaled_features, columns=[f"{col}_scaled" for col in BASE_NUM_COLS], index=test.index)
    test = pd.concat([test, test_scaled], axis=1)
    
    # PCA降维
    pca = PCA(n_components=0.95)
    pca_features = pca.fit_transform(train[BASE_NUM_COLS])
    train_pca = pd.DataFrame(pca_features, columns=[f"pca_{i}" for i in range(pca_features.shape[1])], index=train.index)
    train = pd.concat([train, train_pca], axis=1)
    
    pca_features = pca.transform(test[BASE_NUM_COLS])
    test_pca = pd.DataFrame(pca_features, columns=[f"pca_{i}" for i in range(pca_features.shape[1])], index=test.index)
    test = pd.concat([test, test_pca], axis=1)
    
    return train, test

代码解析:
这是整个特征工程的核心函数,对训练集和测试集执行一系列特征转换:​

  1. 基础数值特征处理:
    • 对每个基础数值特征进行分箱处理,生成新的分箱特征,计算特征的平方和对数变换,捕捉非线性关系
    • 生成相邻特征的乘积组合,捕捉特征间的交互作用
  2. 标准化处理:
    • 使用StandardScaler对原始数值特征进行标准化,使其均值为 0,标准差为 1
    • 标准化后的数据有助于梯度提升模型更快收敛
  3. PCA 降维:
    • 应用主成分分析(PCA)将原始特征转换为一组新的主成分保留 95% 的方差解释率,减少特征维度

特征工程仍然是机器学习中最关键的环节之一,但自动化特征工程​工具正在迅速发展。在 2025 年,一些先进的框架已经能够自动识别特征类型并应用适当的转换。例如,CatBoost 现在已经原生支持嵌入​特征,可以自动从文本和类别特征中提取有意义的数值表示。此外,基于深度学习的特征工程方法在处理复杂数据类型(如图像和文本)方面取得​了重大突破,但在结构化数据领域,传统的特征工程技术仍然占据主导地位。

模型训练与评估

LightGBM 模型训练器

def fit_lgbm(X_train, y_train, X_valid, y_valid, params):
    model = LGBMRegressor(**params)
    model.fit(
        X_train, y_train,
        eval_set=[(X_valid, y_valid)],
        early_stopping_rounds=100,
        verbose=50
    )
    return model

代码解析:
这是 LightGBM 模型的训练函数:

  1. 模型初始化: 使用提供的params字典(1)初始化 LightGBM 回归器
  2. 模型训练:
    • 使用eval_set指定验证集,用于监控训练过程中的性能
    • early_stopping_rounds=100设置提前停止的轮数,如果验证分数在 100 轮内没有提升,则停止训练
    • verbose=50设置每 50 轮输出一次训练信息

LightGBM 已经发展成为处理大规模​数据集的首选库之一,具有出色的内存效率和训练速度。最新版本增强了对 GPU 加速的支持,可以显著减少训练时间。此外,LightGBM 现在原生支持类别特征,无需额外的预处理步骤。在参数调优方面,自动化调优工具(如 Optuna 和 Hyperopt)已经与 LightGB​M 深度集成,使得超参数优化更加高效。

XGBoost 模型训练器

def fit_xgb(X_train, y_train, X_valid, y_valid, params):
    model = XGBRegressor(**params)
    model.fit(
        X_train, y_train,
        eval_set=[(X_valid, y_valid)],
        early_stopping_rounds=100,
        verbose=50
    )
    return model

代码解析:
XGBoost 模型的训练函数与 LightGBM 类似:

  1. 模型初始化: 使用提供的params字典初始化 XGBoost 回归器
  2. 模型训练:
    • 同样使用eval_set指定验证集
    • 设置early_stopping_rounds=100实现提前停止
    • verbose=50控制输出频率

XGBoost 已经更新到 1.7.8.1​版本,进一步提高了稳定性和性能。最新版本增强了对分布式训练的支持,可以在大型集群上高效训练模型。与 LightGBM 相比,XGBo​ost 在处理稀疏数据方面表现更好,并且具有更丰富的正则化选项。XGBoost 现在还提供了更完善的模型解释工具,如 SHAP 值和特征重要性图,可以帮助用户更好地理解模型行为。

CatBoost 模型训练器

def fit_cat(X_train, y_train, X_valid, y_valid, params):
    model = CatBoostRegressor(**params)
    model.fit(
        X_train, y_train,
        eval_set=(X_valid, y_valid),
        early_stopping_rounds=100,
        verbose=50
    )
    return model

代码解析:
CatBoost模型的训练函数:

  1. 模型初始化: 使用提供的params字典初始化 CatBoost 回归器
  2. 模型训练:
    • eval_set指定验证集
    • early_stopping_rounds=100设置提前停止verbose=50控制输出频率

CatBoost 在处理类别特征方面保持领先地位,最新版本进一步增强了这一能力。CatBoost 现在支持嵌入特征,可以直接处理文本和嵌入向量,这使得它在处理混合数据类型(如同时包含文本和数值的​数据集)时特别有用。此外,CatBoost 的 GPU 版本已经得到优化,可以在现代 GPU 硬件上实现更快的训练速度。CatBoost 还​提供了更灵活的参数调优接口,允许用户根据具体任务进行精细调整。

交叉验证训练流程

def cross_validate_and_train(model_func, X, y, params, cv_seeds):
    cv_result = CVResult()
    skf = StratifiedKFold(n_splits=N_FOLDS, shuffle=True, random_state=SEED)
    
    for fold, (train_idx, valid_idx) in enumerate(skf.split(X, y)):
        X_train, X_valid = X.iloc[train_idx], X.iloc[valid_idx]
        y_train, y_valid = y.iloc[train_idx], y.iloc[valid_idx]
        
        # 设置不同的随机种子以增加多样性
        params["random_state"] = cv_seeds[fold]
        
        model = model_func(X_train, y_train, X_valid, y_valid, params)
        cv_result.models.append(model)
        
        y_pred_train = model.predict(X_train)
        train_score = rmse(y_train, y_pred_train)
        cv_result.train_scores.append(train_score)
        
        y_pred_valid = model.predict(X_valid)
        valid_score = rmse(y_valid, y_pred_valid)
        cv_result.valid_scores.append(valid_score)
        
        cv_result.best_iterations.append(model.best_iteration_)
    
    # 计算平均得分
    cv_result.mean_train_score = np.mean(cv_result.train_scores)
    cv_result.mean_valid_score = np.mean(cv_result.valid_scores)
    cv_result.std_valid_score = np.std(cv_result.valid_scores)
    
    return cv_result

代码解析:
这是一个通用的交叉验证训练函数,可以用于训练任何支持model_func接口的模型:

  1. 交叉验证初始化:
    • 使用StratifiedKFold进行分层交叉验证,确保每个折叠的目标变量分布与原始数据相似
    • n_splits=N_FOLDS设置折叠数
    • shuffle=True确保数据在分折前打乱
    • random_state=SEED保证可重复性
  2. 每折训练过程:
    • 对于每个折叠,划分训练集和验证集
    • 为每个折叠设置不同的随机种子(来自cv_seeds列表),增加模型多样性
    • 调用model_func训练模型
    • 记录训练集和验证集的 RMSE 得分
    • 记录最佳迭代次数
  3. 结果汇总:
    • 计算平均训练得分和验证得分
    • 计算验证得分的标准差,评估模型稳定性

交叉验证仍然​是评估模型泛化能力的黄金标准,但在处理时间序列和空间数据时,需要使用更专门的验证策略。一些先进的库(如 CatBoost)已经内置​了更高级的交叉验证功能,可以自动处理类别特征和缺失值。此外,嵌套交叉验证在模型选择和超参数调优中的应用越来越广泛,可以更准确地评估​模型的泛化性能。

模型融合与校准

两阶段权重搜索

def two_stage_weight_search(models, X_train, y_train, X_valid, y_valid):
    # 第一阶段:获取各模型的预测结果
    preds_train = np.column_stack([model.predict(X_train) for model in models])
    preds_valid = np.column_stack([model.predict(X_valid) for model in models])
    
    # 第二阶段:搜索最优权重
    best_score = float('inf')
    best_weights = None
    
    # 简单网格搜索权重
    for w1 in np.linspace(0, 1, 21):
        for w2 in np.linspace(0, 1 - w1, 21):
            w3 = 1 - w1 - w2
            if w3 < 0:
                continue
            
            y_pred_train = preds_train[:, 0] * w1 + preds_train[:, 1] * w2 + preds_train[:, 2] * w3
            train_score = rmse(y_train, y_pred_train)
            
            y_pred_valid = preds_valid[:, 0] * w1 + preds_valid[:, 1] * w2 + preds_valid[:, 2] * w3
            valid_score = rmse(y_valid, y_pred_valid)
            
            # 这里可以根据需要调整评分标准,比如兼顾训练和验证得分
            score = valid_score  # 或者使用其他组合方式
            
            if score < best_score:
                best_score = score
                best_weights = (w1, w2, w3)
    
    return best_weights

代码解析:
这是两阶段权重搜索的核心函数,用于寻找三个模型的最优加权组合:

  1. 第一阶段:
    • 使用每个基模型对训练集和验证集进行预测
    • 将预测结果堆叠成矩阵,其中每一列对应一个模型的预测结果
  2. 第二阶段:
    • 在权重空间中进行网格搜索,寻找最优权重组合
    • 权重满足w1 + w2 + w3 = 1且每个权重都在 [0, 1] 范围内
    • 对于每个权重组合,计算训练集和验证集的 RMSE记录验证得分最优的权重组合

模型融合仍然是提高预测性能的有效方法,特别是在竞赛和实际应用中。两阶段权重搜索是一种简单但有效的融合方法,但在 2025 年,更先进的融合技术已经出现。例如,基于深度学习的元模型可以学习更复杂的权重​组合,而不仅仅是线性加权。此外,扩散混合(Diffusion Blend)等新技术在某些领域已经显示出更好的性能。对于时间序列数据​,动态权重融合方法(如根据时间步长调整权重)也越来越受欢迎。

模型校准函数

def calibrate_predictions(models, X, calibration_mode="average"):
    if calibration_mode == "average":
        preds = np.mean([model.predict(X) for model in models], axis=0)
    elif calibration_mode == "weighted":
        # 需要预先计算权重
        weights = [0.3, 0.3, 0.4]  # 示例权重,需要根据实际情况设置
        preds = np.average([model.predict(X) for model in models], axis=0, weights=weights)
    elif calibration_mode == "best_single":
        # 选择验证得分最佳的单个模型
        valid_scores = [model.best_score_["valid_0"]["rmse"] for model in models]
        best_model_idx = np.argmin(valid_scores)
        preds = models[best_model_idx].predict(X)
    else:
        raise ValueError("Invalid calibration_mode")
    return preds

代码解析:
这是一个模型校准函数,提供了三种不同的预测校准模式:

  1. 平均模式:
    • 简单平均所有模型的预测结果
    • 是最基础的融合方法,计算简单且鲁棒性强
  2. 加权平均模式:
    • 使用预先计算的权重对各模型的预测结果进行加权平均需要提供有效的权重列表,各权重之和应为 1
  3. 最佳单模型模式:
    • 选择在验证集上表现最佳的单个模型进行预测
    • 可能不如融合方法稳定,但在某些情况下可能表现更好

模型校准在提高预测可靠性方面变得越来越​重要,特别是在需要概率预测的应用中。在 2025 年,更复杂的校准技术(如温度缩放和贝叶斯校准)已经被广泛采用。此外,基于深度学习的​校准方法在处理复杂分布时表现更好。对于分类问题,多标签校准和类别不平衡校准也得到了更多关注。在实际应用中,通常需要根据具体问题和数据特点选择合适的校准方法。

主函数与完整流程

数据加载与准备

def main():
    # 加载数据
    train_df = pd.read_csv(os.path.join(DATA_DIR, "train.csv"))
    test_df = pd.read_csv(os.path.join(DATA_DIR, "test.csv"))
    
    # 分离特征和目标
    X = train_df.drop([ID_COL, TARGET_COL], axis=1)
    y = train_df[TARGET_COL]
    test_id = test_df[ID_COL]
    X_test = test_df.drop([ID_COL], axis=1)
    
    # 特征工程
    X_transformed, X_test_transformed = build_features(X, X_test)
    
    # 模型参数设置
    lgbm_params = {
        "objective": "regression",
        "metric": "rmse",
        "num_leaves": 31,
        "learning_rate": 0.01,
        "n_estimators": 10000,
        "boosting_type": "gbdt",
        "verbosity": -1
    }
    
    xgb_params = {
        "objective": "reg:linear",
        "eval_metric": "rmse",
        "max_depth": 6,
        "learning_rate": 0.01,
        "n_estimators": 10000,
        "verbosity": 0
    }
    
    cat_params = {
        "loss_function": "RMSE",
        "depth": 6,
        "learning_rate": 0.01,
        "iterations": 10000,
        "verbose": 0
    }
    
    # 交叉验证训练
    print("Training LightGBM models...")
    lgbm_cv_result = cross_validate_and_train(fit_lgbm, X_transformed, y, lgbm_params, CV_SEEDS)
    
    print("\nTraining XGBoost models...")
    xgb_cv_result = cross_validate_and_train(fit_xgb, X_transformed, y, xgb_params, CV_SEEDS)
    
    print("\nTraining CatBoost models...")
    cat_cv_result = cross_validate_and_train(fit_cat, X_transformed, y, cat_params, CV_SEEDS)
    
    # 模型融合与校准
    calibration_modes = ["average", "weighted", "best_single"]
    best_valid_score = float('inf')
    best_predictions = None
    
    for mode in calibration_modes:
        print(f"\nEvaluating calibration mode: {mode}")
        
        # 训练集预测
        train_preds = calibrate_predictions(
            [lgbm_cv_result.models, xgb_cv_result.models, cat_cv_result.models],
            X_transformed,
            calibration_mode=mode
        )
        
        train_score = rmse(y, train_preds)
        print(f"Train RMSE: {train_score:.4f}")
        
        # 验证集预测(使用交叉验证的验证集)
        # 这里需要更复杂的处理,为简化示例,暂时省略
        
        # 假设验证得分...
        valid_score = 0.0  # 需要根据实际情况计算
        
        print(f"Validation RMSE: {valid_score:.4f}")
        
        if valid_score < best_valid_score:
            best_valid_score = valid_score
            # 对测试集进行预测
            test_preds = calibrate_predictions(
                [lgbm_cv_result.models, xgb_cv_result.models, cat_cv_result.models],
                X_test_transformed,
                calibration_mode=mode
            )
            best_predictions = test_preds
    
    # 保存结果
    submission = pd.DataFrame({
        ID_COL: test_id,
        TARGET_COL: best_predictions
    })
    submission.to_csv("submission.csv", index=False)
    print("\nSubmission file saved.")

代码解析:
这是整个程序的主函数,整合了所有功能模块:

  1. 数据加载与准备:
    • 从 CSV 文件加载训练集和测试集
    • 分离特征和目标变量
    • 保存测试集的 ID 列用于结果提交
  2. 特征工程:
    • 调用build_features函数对训练集和测试集进行特征转换
    • 生成新的特征集
  3. 模型参数设置:
    • 为三个模型(LightGBM、XGBoost、CatBoost)设置超参数
    • 这些参数是示例值,实际应用中需要根据数据特点进行调优
  4. 交叉验证训练:
    • 对每个模型进行 5 折交叉验证训练
    • 记录训练过程和结果
  5. 模型融合与校准:
    • 对三种校准模式进行评估
    • 选择验证得分最佳的模式生成最终预测
    • 对测试集进行预测
  6. 结果保存:
    • 将预测结果与测试集 ID 合并
    • 保存为 CSV 文件用于提交

在 2025 年,自动化机器学习(Auto​ML)工具已经能够自动完成从数据加载到模型部署的整个流程,大大减少了手动编码的需要。然而,对于复杂的实际问题,手动调整和优化仍然是必要的。在大规模数据处理方面,分布式计算框架(如 Apache Spark 和 Dask)已经与机器学习库深度集成,可以处理超出内存​限制的数据集。此外,模型解释和可解释性工具的发展也使得用户能够更好地理解和信任模型预测。

最后用:

if __name__ == "__main__":
    main()

这是标准的 Python 入口点,确保只有在直接运行脚本时才执行main函数。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐