【教程】从 0 到 1，微调一个自己专属的大模型

本文绍了如何将领域内零散的知识文档用于微调大语言模型。首先，通过MinerU等工具将PDF、DOCX等文件统一转换为Markdown格式。

AI-智能

683人浏览 · 2025-12-04 15:55:58

AI-智能 · 2025-12-04 15:55:58 发布

一、引言

1.1 什么是微调大模型？

微调（Fine-tuning）大模型，就像是给一个已经学富五车的大脑（预训练的基础大模型），进行一次针对性的“专业强化训练”。基础大模型通过海量数据学习了通用的语言规律和世界知识，但对于特定领域、特定任务，它可能还不够“精通”。微调就是利用少量、高质量的领域数据，在基础模型之上继续训练，让模型更好地适应新的任务或领域。也就是让大模型从一个广度很强的通才，在某个领域树上的技能加强变成一位专才。

尤其常用的LoRA（Low-Rank Adaptation）等高效微调方法，通过只调整模型中很少一部分参数或添加少量额外层，就能达到很好的效果，大大降低了所需的计算资源和时间，让模型“学得又快又专”。

Lora微调原理，在大模型权重文件的输出时，再添加一个可训练的低秩矩阵

1.2 为什么需要微调大语言模型

预训练的大语言模型虽然强大，能理解和生成各种文本，但它们是“通才”，缺乏对特定领域细致入微的理解或完成特定复杂任务的能力。比如，在一个高度专业的行业（如医疗、法律、金融或企业内部知识库）中，模型可能不理解行业黑话、处理不了特有的文档格式或无法给出基于内部规章的准确回答。

通过微调，我们可以用该领域的特有数据对其进行“定制化”训练，让模型掌握领域内的专业知识、术语和逻辑，从而使其成为该领域的“专家”，能够更准确、高效地处理垂直领域的复杂问题，提供更具价值的服务。

二、数据集准备

2.1 领域大模型微调

想象一下，在您熟悉的某个行业或公司内部，随着时间的推移，沉淀了无数宝贵的知识和经验。这些信息通常零散地存储在各种PDF、Word文档甚至扫描件中，它们是领域的精华，却也形成了难以逾越的“知识孤岛”。想要从中快速准确地找到所需的信息，或是理解某个复杂概念，往往需要耗费大量时间和精力，对于新手来说更是门槛很高。

试想，如果能有一个AI助手，它不仅能理解通用语言，更能像一位资深的领域专家一样，透彻地掌握并运用这些独有的垂直领域知识，随时为您答疑解惑，那该多好？这正是领域大模型微调的核心价值所在——通过将通用大模型的能力与特定领域的宝贵数据结合，我们可以打造出真正理解并能应用这些知识的垂直领域智能体。

这个时候，用领域内知识微调后大语言模型便能派上用场了。下面我将会从整体流程的角度，梳理一遍大语言模型微调全流程的方法论，以及开源工具的使用，从而实现更加高效、安全的模型训练与部署。

本文的思路展示，收集领域知识文档→统一转换为Markdown格式→构造微调数据集→微调大语言模型

关于一些更加具体的操作后续会逐渐填坑~

2.2 文档格式的统一转换

通常，由于行业内多年的知识沉淀，往往会留存大量的文件扫描件，一些遗失多年的word，为了能让后续对这些文档能进行统一的处理，我们需要将他们的格式统一为Markdown格式。

Markdown是一种轻量级标记语言，排版语法简洁，让人们更多地关注内容本身而非排版。它使用易读易写的纯文本格式编写文档，可与HTML混编，可导出 HTML、PDF 以及本身的.md 格式的文件。更多的相关的介绍可以参考这边的链接

Markdown 基本语法 | Markdown 教程markdown.com.cn/basic-syntax/

这边我以一个国产的工具 MinerU为例，这个工具支持本地离线部署，也可以在线使用，笔者体验下来这个工具对于pdf的识别相当的好，但是对于doc识别还是不是很好。如果有需要的话可以将doc转换为pdf再使用MinerU进行识别。

MinerUmineru.net/

这边我以一篇pdf格式的论文为例，右侧是识别出来的Markdown预览文件，可以看出来对于文字和公式的识别还是相当准确的。

windows客户端可以在线识别，但是目前只支持导出Latex，docx，HTML格式的文件

如果想要导出Markdown文件到本地，可以在本地本地部署下MinerU，或者直接在魔搭社区的创空间进行体验

MinerU (PDF转Markdown/JSON) · 创空间www.modelscope.cn/studios/OpenDataLab/MinerU

2.3 构建微调数据集

现在我们得到了markdown格式的数据文件，但是这些数据仍然不能直接用来微调大模型。**因为大模型所完成的任务，是通过问答的形式实现的。**也就是说，我们需要将文档的知识点全都变成一问一答的形式才能进行微调。早期的数据集构造是一个非常耗时，重复性的工作，需要人类去进行一步步地构造问题，并且根据文档的内容进行解答，但也正是这些前人的不断努力，堆出了现在大语言模型的繁荣。

在当前的AI水平下，让大语言模型辅助实现问答对的构造已经是一个很常见的策略了。这边我们可以使用一个国产开源工具Easy-dataset进行处理。

easy-dataset/README.zh-CN.md at main · ConardLi/easy-datasetgithub.com/ConardLi/easy-dataset/blob/main/README.zh-CN.md

Easy-dataset工具流程示意

在处理文档之前，首先我们需要本地部署一个基础的大语言模型，这里我们使用ollama部署qwen2.5-7b模型，具体的操作可以参考下面的链接~

Ollama使用指南【超全版】 - 知乎zhuanlan.zhihu.com/p/704951717

总的来说，Easy-dataset通过我们上传的Markdown文件，将文本内容进行分割，之后让大语言模型对每个分割的片段进行提问，在生成所有的问题之后，再利用相关的片段与生成的问题对大语言模型进行提问，从而实现了将文档知识变成问答对的形式。

上传Markdown之后对文档进行了切分，总共被分成了33个切片

总共生成了173个问答对

点开其中一个问答对，效果如图

上面问答对的原文内容如上，可以看出模型对于知识点的提取还是相当准确且有价值的

下一步，我们直接导出微调数据集便可以开始微调。

三、微调大语言模型

3.1 成本估算

在本次的演示中，我使用的是Qwen2.5-7B-Instruct模型，模型的大小为70亿参数，权重文件约15GB。在默认参数下，在NVIDIA A100-PCIE-40GB显卡上进行微调，占用19.79GB显存。一般来说，只要显卡显存大于19.79GB便可以完全复现本次实验，例如4090 24GB也是可以运行的。

3.2 微调工具的部署

为了微调大语言模型，这边我们可以使用llamafactory进行微调，Swanlab进行模型训练的监测，由于llamafactory是自带Swanlab适配的，所以仅需要在llamafactory中配置Swanlab秘钥即可。

关于llamafactory的部署，可以参考其中官方文档

安装 - LLaMA Factoryllamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

安装完成后，按照文档中的要求，导入我们刚才生成的数据集到data文件夹下，之后记得在data_info.json进行注册，启动llamafactory之后我们便可以预览数据集了

预览数据集，确保选中正确的文件

3.3 启用训练参数的监测工具

为了实时监测训练的状态，可以使用Swanlab作为一个跟踪、记录、比较、和协作实验的平台，这个工具支持实时云端同步训练的参数变化。可以在官网注册一个API，添加到llamafactory中即可

SwanLab官方文档 | 先进的AI团队协作与模型创新引擎docs.swanlab.cn/

llamafactory中启用swanlab

配置好参数后便可以愉快地开启训练啦~

在Chat处我们首先测试下没有经过领域数据集微调的模型回答的效果，大模型由于在早期的预训练阶段已经学习大量的公开知识，所以具备一定的知识储备，但是这边和我们期望的垂直应用的回答还是有一定的区别。

原始模型的回答

这边我们选择好刚才训练的检查点路径，就可以体验学习了新知识后的模型了

可以看出大模型已经把这些知识学进去了

在Swanlab中，我们也可以查看刚才训练的各项参数曲线，下面的是我训练过程的参数曲线（这边我简略地设置了下训练参数，效果可能不佳，具体的需要考虑数据集的数量，基模型大小等因素）

SwanLab基线社区搜索作者ID cathelloya

四、小结

本文绍了如何将领域内零散的知识文档用于微调大语言模型。首先，通过MinerU等工具将PDF、DOCX等文件统一转换为Markdown格式。接着，利用Easy-dataset并结合基础大模型（如通过Ollama部署），将Markdown文档内容自动化地构建成问答数据集。最后，使用LLaMA Factory框架加载此数据集对大模型进行微调，并借助SwanLab等工具实时监控训练过程，从而训练出一个能理解特定领域知识的垂直领域大模型。

相关链接：
1.SwanLab官方文档 | 先进的AI团队协作与模型创新引擎
https://docs.swanlab.cn/

2.easy-dataset/README.zh-CN.md at main · ConardLi/easy-dataset

https://github.com/ConardLi/easy-dataset/blob/main/README.zh-CN.md

3.MinerU

https://mineru.net/

4.Ollama

https://ollama.com/

5.安装 - LLaMA Factory

https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/installation.html

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从 3000 美元到 1700 美元：AI 智能体如何加速智能合约“被黑”工业化

2048 AI社区

Transformer架构详解：从核心组件到大模型学习路线全攻略！

2048 AI社区

域格ASR 1803平台模组 JR3WIFI定频测试

AT+wifi=aicrftest set_txstop\\WiFi发射测试停止。AT+wifi=aicrftest set_txstop\\WiFi发射测试停止。AT+wifi=aicrftest set_txstop\\WiFi发射测试停止。AT+wifi=aicrftest set_txstop\\WiFi发射测试停止。需要添加两个固件：如下图。