AI通识:从机器学习到深度学习,核心概念与发展脉络

昨天咱们聊了聊为什么要拥抱 AI,以及如何在 KingbaseES (KES) 上搭好台子。今天,咱们正式进入“数影寻智”的第二天。

很多架构师同事跟我抱怨:“AI 圈子里的名词太多了,一会儿 CNN,一会儿 Transformer,听着就头大。”其实,跳出那些复杂的数学公式,从系统架构的角度来看,AI 的演进脉络清晰得就像咱们熟悉的分布式演进史。


壹:核心逻辑的转折——从“编剧”到“导演”

在传统软件架构里,我们更像是一个编剧。每一行逻辑、每一个异常处理都要写得明明白白。如果系统没按预期跑,那是我们脚本没写好。

但在 AI 时代,我们的角色变了,我们成了导演

  • 机器学习 (ML):就像是你给演员(模型)讲戏,你得告诉他:“你看,这种眼神代表悲伤,这种手势代表愤怒。”这就是特征工程。你得帮模型提取关键特征(Feature)。
  • 深度学习 (DL):这时候演员大牌了,也更有灵性了。你只需要把剧本(海量数据)扔给他,跟他说:“你自己悟吧,我就要最后那个哭出来的效果。”它会通过多层神经网络,自己去提取那些人肉眼甚至无法定义的特征。

这就是所谓的“表征学习”。从架构上说,我们从硬编码逻辑转向了数据驱动逻辑


贰:核心概念:这三根柱子你得扶稳

搞 AI 离不开这三个词:模型、损失函数、优化器

用咱们金仓数据库的维护来打比方:

  1. 模型 (Model):就是那套复杂的查询执行计划。
  2. 损失函数 (Loss Function):就是“实际执行耗时”减去“理想耗时”的差值。差值越大,说明计划越烂。
  3. 优化器 (Optimizer):就是你调整索引、重写 SQL 的那个动作。目标只有一个:让损失函数的值越来越小。

叁:脉络梳理:从“小作坊”到“流水线”

AI 的发展不是一蹴而就的:

  • 古典时期(感知机/逻辑回归):能解决简单的线性分类,就像早期的单机数据库,处理能力有限。
  • 中兴时期(SVM/随机森林):引入了核函数、集成学习。这一阶段的 AI 已经在很多工程场景落地了。
  • 大航海时代(深度学习/神经网络):随着算力爆发,多层神经网络让图像识别、语音识别达到了超越人类的水平。

肆:手感实战——在 KES 里的“特征提取”

在机器学习中,数据清洗和特征转换是重头戏。作为架构师,我坚持数据能在数据库里处理的,就别往内存里搬。

假设我们在 KingbaseES 里存了一堆用户的原始行为日志,我们想提取一个简单的特征:用户活跃度归一化。这在机器学习预处理中非常常见。

看看这段 Python 代码,它是如何配合 KES 完成“数影取数”并进行基础处理的:

# -*- coding: utf-8 -*-
import ksycopg2
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def feature_engineering_demo():
    # 还是昨天的那个连接逻辑,记住,驱动要去官网下最新的
    # 链接:https://www.kingbase.com.cn/download.html#drive
    conn_params = "dbname=test user=username password=123456 host=127.0.0.1 port=54321"
    
    try:
        conn = ksycopg2.connect(conn_params)
        print("--- 开始从 KingbaseES 提取原始特征 ---")
        
        # 模拟从 KES 提取用户登录次数和消费金额
        query = "SELECT user_id, login_count, spend_amount FROM user_stats"
        df = pd.read_sql(query, conn)
        
        # 架构师视角:AI 模型对数值敏感,我们得做归一化
        scaler = MinMaxScaler()
        # 假设我们只对后两列特征进行缩放
        df[['login_count', 'spend_amount']] = scaler.fit_transform(df[['login_count', 'spend_amount']])
        
        print("特征处理完成,前5行数据如下:")
        print(df.head())
        
        # 接下来,这些清理好的数据就可以喂给 Scikit-learn 或 PyTorch 了
        conn.close()
        
    except Exception as e:
        print(f"处理过程中出现偏差: {e}")

if __name__ == "__main__":
    feature_engineering_demo()


结语:架构的终点是“自然”

不管是机器学习还是深度学习,它们其实都是在试图模拟人类对这个世界的感知方式。

我常说,好的架构应该是“润物细无声”的。当我们把复杂的算法逻辑,通过像 KingbaseES 这样稳健的数据库进行支撑和流转时,技术就不再是冰冷的数字,而是一种洞察业务的智慧。

明天,咱们深入聊聊那个最核心的问题:为什么在 AI 时代,数据存储基础如此重要?为什么我们要把 AI 的底座压在 KingbaseES 上?


下期预告: 第3天:AI数据存储基础:为什么选择KingbaseES?核心特性与AI场景适配性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐