AI大模型的基本知识

xuanwuziyou

409人浏览 · 2025-08-04 16:49:47

xuanwuziyou · 2025-08-04 16:49:47 发布

什么是AI

让机器执行需要人类智能的任务
阶段：
早期阶段：专家系统依赖人设定的规则
机器学习时代：数据参数训练
深度学习时代：用神经网络模拟人脑复杂结构比如图像识别和处理
大模型时代：以规模数据和大算力为基础

AI的分类

1 分析式AI：核心任务是决策
2 生成式AI：做写作画图等创造性工作

1 大语言模型LLM

基于海量文本数据训练如 ChatGpt DeepSeek QWen
示例：智能客服内容创建

2 生图、生视频模型

如Sora liblib.art jimeng

3 视觉识别模型

如视觉识别出产品外观瑕疵，分析X光或CT扫描的病灶点如 YOLO ResNet，可做图像分类物体检测

4 自动驾驶模型

如辅助驾驶无人配送

ChatGPT是如何训练出来的

1 收集数据死记硬背比如背下香蕉是什么
2 强化学习问香蕉是什么 AI答出4个答案人工给这4个答案排序把工作交给AI 领导点评
3 强化学习优化模型写一个水獭的故事
Rank List标注平台，给机器的回答排序

K2的参数量已达到上万亿

不同大模型的token是如何定义的

tiktokenizer.vercel.app
分词

Temperatrue、Top P的原理与作用

高 temperature: 使得生成结果更具有创造性可能出现极小概率的答案
低 temperateur: 结果更保守

top P(概率)
Top P(设为0.9) 容易生成高质量的文本不会出现极小概率的答案

AI大模型聊天产品的超能力

1 联网搜索 function call的能力比如查询影响黄金价格的因素
2 读取文件读取企业内部的有价值的文档
3 记忆能力 LLM是无状态的每次对话时把最近几轮问答作为背景信息一起发送给LLM；
需长期记忆的关键信息如用户名字偏好等画像做个提取

2025年年初全球AI模型：
外国推荐的：GPT-4o, Claude 4 Sonnet, Gemini 2.5 Flash
国内推荐的：DeepSeek的 R1 V3，阿里巴巴的 Qwen3, Kimi K2(kimi.com) Qwen-tur?

前沿领域的H20

运行调用API

pip 配置上清华镜像

安装 anacoda3
jupyter 可以运行 .ipynb 文件

system
user
assitant

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

上下文协议（MCP）Java SDK 指南

我们先通过这个类，定义一个非常简单的 MCP 工具，用来打印收到的提示词（prompt），该方法返回一个.build();});这里我们首先定义了输入的 JSON Schema，用来为用户输入建立一个清晰的契约。接着，使用该输入 Schema 来实例化一个Tool，在处理逻辑中提取出prompt参数，并最终返回包含该prompt的结果。在本文中，我们首先回顾了 MCP 及其 Java SDK 的整