数据获取,存储,清理完成之后,对数据进行建模和使用算法之前,数据的特征选择是一个重要的问题。

正所谓,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。

         特征选择是从一个原始数据特征空间中选择一个最优子集的过程,通过特征选择原始数据集中的冗余

特征和不相关特征被除去,而有用特征得以保留。特征选择不仅能够实现降维,而且特征子集比原始数据子

集获得更好的拟合优度和分类精度。

        特征选择算法的一般流程:

        1. 原始特征空间。

        2. 构造特征子集,特征子集的构造通过在原始空间的搜索来完成,搜索的方法有完全搜索、启发式搜索、

随机搜索。

        3. 评估特征子集,对特征子集的评估是特征选择的核心问题,有不同的标准,如相关性、距离、信息增

益、一致性、分类错误率。

        4. 选择最优特征子集。

        特征选择算法有三种设计模式:过滤法,封装法,混用法,嵌入发。

        

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐