（头歌）【挑战】特征筛选：改善模型性能

基于特征重要性，筛选特征降维，例如主成分分析PCA，线性判别分析LDA，SVD分解等；本关任务：优化数据转换方案，筛选重要的特征，或者对数据特征做合理变换，以提高分类器的性能。最大最小规范化 Z-Score规范化归一化映射到正态分布稀疏数据缩放带离群点的缩放。根据提示，在右侧编辑器补充代码，优化数据预处理方案。准确率高于0.83!

萧然975

1010人浏览 · 2023-10-29 15:48:05

萧然975 · 2023-10-29 15:48:05 发布

任务描述

本关任务：优化数据转换方案，筛选重要的特征，或者对数据特征做合理变换，以提高分类器的性能。

编程要求

根据提示，在右侧编辑器补充代码，优化数据预处理方案。

测试说明

平台将对模型进行自动测试：

如果模型性能高于预设的值，则输出： 准确率为:0.xxxxxx 准确率高于0.83!

否则，输出： 准确率为:0.xxxxxx 请继续努力!

实验结果

import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd

from sklearn.linear_model import LogisticRegression

from load_data import load_data

def data_preprocess(data):

    X = data.iloc[:,:-1]  #拟输入模型的数据
    y = data.iloc[:,-1]   #分类标签

    #---------Begin-----------#
    #请对 X 进行合理的预处理
    
    # 可尝试使用以下方法任意一种进行 特征缩放
    from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer, PowerTransformer, RobustScaler, QuantileTransformer

    scaler = MinMaxScaler()  # 最大最小规范化
    scaler = StandardScaler()  # Z-Score规范化
    scaler = Normalizer()  # 归一化
    scaler = PowerTransformer()  # 映射到正态分布
    scaler = RobustScaler()  # 稀疏数据缩放
    scaler = QuantileTransformer()  # 代离群点的缩放
    X_scaled = scaler.fit_transform(X)
    
    
    # 可以尝试使用以下方法任意一种进行 特征筛选
    from sklearn.feature_selection import VarianceThreshold
    from sklearn.feature_selection import SelectKBest, f_classif
    from sklearn.decomposition import PCA
    # 删除低方差特征
    selector = VarianceThreshold()
    X_selected = selector.fit_transform(X_scaled)

    # 基于L1正则化的特征选择
    lgc = LogisticRegression(penalty='l1', solver='liblinear', random_state=1)
    sfm = SelectFromModel(lgc)
X_selected = sfm.fit_transform(X_selected, y)

    # PCA
    pca = PCA(n_components=10)
    X_pca = pca.fit_transform(X_selected)
    #---------End-------------#

    return X,y


def train_model():
    """训练一个逻辑回归分类器"""
    data_frame = load_data()

    X_train, y_train = data_preprocess(data_frame)
    lgc = LogisticRegression(random_state=1)
    lgc.fit(X_train,y_train)

    return lgc

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

智能体来了：HR如何用AI提高工作效率

HR 可以借助 AI 智能体及各类 AI 工具，覆盖招聘、员工管理、培训、绩效、薪酬、员工体验等全流程工作，实现提效降本、优化决策、提升员工体验的目标。

2048 AI社区

豆包 1.6 商品图生成指南：从 0 到 1 写好提示词，轻松生成服饰 / 零食 / 宣传图

豆包1.6图像生成依赖精准提示词，需包含主体、风格、细节等要素。文章提供通用公式（主体+风格+细节+场景+光线+画质）及服饰、零食、宣传图三类场景的模板。强调避免模糊表述，建议用逗号分隔元素，并针对不同风格添加专属优化词。通过案例演示如何调试不满意的生成结果，最终提供可直接套用的模板。核心是通过结构化提示词将需求转化为AI可执行的指令，逐步迭代优化即可获得理想图像。