数据特征选择
数据获取,存储,清理完成之后,对数据进行建模和使用算法之前,数据的特征选择是一个重要的问题。正所谓,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。 特征选择是从一个原始数据特征空间中选择一个最优子集的过程,通过特征选择原始数据集中的冗余特征和不相关特征被除去,而有用特征得以保留。特征选择不仅能够实现降维,而且特征子集比原始数据子集获得更好的拟合优度和
·
数据获取,存储,清理完成之后,对数据进行建模和使用算法之前,数据的特征选择是一个重要的问题。
正所谓,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
特征选择是从一个原始数据特征空间中选择一个最优子集的过程,通过特征选择原始数据集中的冗余
特征和不相关特征被除去,而有用特征得以保留。特征选择不仅能够实现降维,而且特征子集比原始数据子
集获得更好的拟合优度和分类精度。
特征选择算法的一般流程:
1. 原始特征空间。
2. 构造特征子集,特征子集的构造通过在原始空间的搜索来完成,搜索的方法有完全搜索、启发式搜索、
随机搜索。
3. 评估特征子集,对特征子集的评估是特征选择的核心问题,有不同的标准,如相关性、距离、信息增
益、一致性、分类错误率。
4. 选择最优特征子集。
特征选择算法有三种设计模式:过滤法,封装法,混用法,嵌入发。
更多推荐
所有评论(0)