企业内训 | 大模型训练与智能数据标注实战——某省电信公司
8月下旬银川,TsingtaoAI派驻技术专家为某省电信公司量身打造交付大模型训练与智能数据标注实战课程。课程聚焦电信场景落地核心环节:深度剖析智能数据工程全链路,从数据采集的"五大维度"(信源偏差、新鲜度、场景覆盖等)到Pandas高级优化技巧,再到CVAT标注规范与质量审计体系,解决数据"垃圾进、垃圾出"的顽疾;切入大模型内核,通过GPT-4与LLaMA架构对比、BertViz注意力可视化及M
8月下旬银川,TsingtaoAI派驻技术专家为某省电信公司量身打造交付大模型训练与智能数据标注实战课程。课程聚焦电信场景落地核心环节:深度剖析智能数据工程全链路,从数据采集的"五大维度"(信源偏差、新鲜度、场景覆盖等)到Pandas高级优化技巧,再到CVAT标注规范与质量审计体系,解决数据"垃圾进、垃圾出"的顽疾;切入大模型内核,通过GPT-4与LLaMA架构对比、BertViz注意力可视化及MiniGPT代码级解读,破除"黑箱"迷思。
课程直指生产落地关键:实战FSDP分布式训练、LoRA/P-Tuningv2微调对比及RLHF奖励模型设计,解决行业小样本训练难题;聚焦ONNX-TensorRT部署优化与Prometheus监控体系,结合行业特性设计解决方案——如将BioBERT领域知识注入方法迁移至客户投诉分析,用半自动标注提升故障识别效率。课程融入金融舆情、电信工单等真实案例代码实操,确保技术团队学完即用,真正打通从数据到业务价值的闭环。
课程大纲
Course Outline
第一部分:智能数据工程
► 数据采集与业务场景分析
● 数据采集对模型效果的影响 | Scrapy/Selenium关键功能对比
● 实战:金融舆情数据实时爬取
► 高效数据清洗与增强
● Pandas高级技巧(pd.eval优化内存/正则清洗)
● 合成数据工具:GANs生成图像数据 | nlpaug文本增强
► 标注工具链与质量控制
● CVAT标注YOLO格式数据 | 数据集标注规范
● 标注审计:混淆矩阵分析标注一致性
第二部分:大模型基础与训练准备
► 大模型架构解析
● GPT-4/LLaMA结构对比 | Attention可视化工具BertViz
● 代码解读: MiniGPT前向传播
► 训练环境与数据工程
● Docker容器化环境配置 | PyTorch Lightning模板解析
● 数据分布分析工具:Pandas Profiling + Great Expectations
第三部分:大模型深度训练
► 分布式训练实战
● FSDP策略详解 | 多机多卡训练SLURM脚本编写
● 案例:使用Deepspeed微调LLaMA-7B*
► 模型调优方法论
● 超参数搜索:Optuna贝叶斯优化 vs Grid Search
● 过拟合解决方案:DropPath+Label Smoothing
► 对话系统专项训练
● SFT全流程:LoRA/P-Tuningv2对比 | RLHF奖励模型设计
● BadCase分析:LangChain追踪对话链错误
第四部分:部署与业务落地
► 生产级部署优化
● 模型剪枝:Magnitude Pruning实操 | ONNX-TensorRT部署
● 监控体系:Prometheus采集GPU利用率/推理延迟
► 行业解决方案设计
● 医疗NER模型适配:BioBERT领域知识注入
● 制造业CV模型优化:半自动标注提升效率
更多推荐
所有评论(0)