特征工程十年演进(2015–2025)

一句话总论:
2015年特征工程还是“手工统计+领域专家经验+低维特征拼接”的工程时代,2025年已进化成“万亿级多模态VLA大模型原生特征+实时意图级自适应表示+量子鲁棒自进化+全域具身零样本特征”的普惠智能时代,中国从跟随手工特征跃升全球领跑者(华为盘古、阿里通义千问、百度文心、DeepSeek、小鹏/银河VLA等主导),特征工程渗透率从>90%降至<10%(新项目),手工特征从必备到几乎消失,特征质量从~80%泛化率飙升至>99%全场景零样本,推动AI从“专家手工调参”到“大模型原生意图级表示”的文明跃迁。

十年演进时间线总结
年份 核心范式跃迁 代表技术/工具 特征质量(泛化提升)/自动化程度 主要应用/渗透率 中国贡献/里程碑
2015 手工统计+领域专家 手工统计特征 + One-hot ~70–80% / 手工为主 表格/图像特征 阿里/腾讯手工特征工程,中国Kaggle中国队起步
2017 自动化初步+嵌入表示 Featuretools / Entity Embedding ~80–85% / 半自动 类别/序列特征 华为/百度初代嵌入特征,中国产业化起步
2019 深度特征+学习表示爆发 CNN/RNN自动特征 + TabNet ~85–90% / 初步自动 图像/文本深度特征 Momenta/地平线车载深度特征量产
2021 大模型预训练特征元年 BERT/GPT嵌入 + LoRA微调 ~90–93% / 大模型辅助 少样本迁移 华为盘古 + 小鹏智驾大模型特征
2023 多模态VLA原生特征元年 CLIP/VLA Embed + UniFeature ~95–97% / 大模型原生 跨模态意图特征 阿里通义千问 + 百度文心一格 + DeepSeek多模态特征
2025 VLA自进化+量子鲁棒终极形态 Grok-4 Embed / DeepSeek-Feature >99% / 全域自进化(量子鲁棒) 全域社交意图零样本特征 华为盘古特征 + DeepSeek万亿 + 小鹏/银河量子级特征
1. 2015–2018:手工统计+领域专家时代
  • 核心特征:特征工程以手工统计(均值/方差/分桶)+One-hot编码+领域专家经验为主,低维拼接,泛化率70–85%,完全依赖专家。
  • 关键进展
    • 2015年:Kaggle竞赛手工特征霸榜。
    • 2016–2017年:Entity Embedding类别嵌入初步。
    • 2018年:Featuretools自动化规则初步。
  • 挑战与转折:手工重、泛化弱;深度学习+自动化特征兴起。
  • 代表案例:阿里淘宝/京东手工特征工程,中国电商推荐领先。
2. 2019–2022:深度特征+自动化时代
  • 核心特征:CNN/RNN/TabNet自动特征提取+Featuretools/Deep Feature Synthesis自动化,泛化率85–93%,实时化初探。
  • 关键进展
    • 2019年:TabNet注意力表格特征。
    • 2020–2021年:DeepFM/FiGNN深度特征融合。
    • 2022年:Momenta/地平线车载深度特征量产。
  • 挑战与转折:手工仍重;大模型预训练特征需求爆发。
  • 代表案例:小鹏NGP + 华为ADS 2.0深度特征感知。
3. 2023–2025:多模态VLA原生自进化时代
  • 核心特征:万亿级多模态大模型+VLA端到端原生特征+意图级动态表示+量子辅助鲁棒,自进化(越用越准),泛化率>99%。
  • 关键进展
    • 2023年:CLIP Embed多模态+VLA原生特征,阿里通义千问/百度文心一格首发。
    • 2024年:DeepSeek/Grok-4专用特征,量子混合精度。
    • 2025年:华为盘古特征 + DeepSeek万亿 + 通义千问量子级,全域社交意图零样本特征+行动直出,普惠7万级智驾/机器人。
  • 挑战与转折:黑箱/长尾;量子+大模型自进化标配。
  • 代表案例:比亚迪天神之眼(7万级多模态意图级特征),银河通用2025人形(VLA动态意图特征)。
一句话总结

从2015年手工统计拼接的“专家特征工程”到2025年VLA量子自进化的“全域意图级原生表示”,十年间特征工程由手工规则转向多模态语义闭环,中国主导深度特征→预训练嵌入→VLA原生特征创新+万亿实践+普惠下沉,推动AI从“特征调参地狱”到“大模型零样本意图级理解”的文明跃迁,预计2030年手工特征工程渗透率<1%+全域永不失真自愈。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐