35分钟搞定!本地部署phi-4和千问2.5大模型,打造能联网搜索的永久免费AI助手(收藏级教程)
本地大模型部署指南:35分钟快速搭建免费AI助手 本文详细介绍如何在本地部署大模型phi-4和千问2.5,无需编程基础,35分钟即可完成。主要内容包括: 硬件检查:提供Windows/Mac配置要求,建议16GB以上内存,NVIDIA显卡(Windows)或M系列芯片(Mac) 安装步骤: 下载安装Ollama软件 选择合适的模型(推荐qwen2.5中文模型) 安装浏览器插件 核心优势: 完全免费
本文详细介绍了如何在本地部署大模型phi-4和千问2.5,无需编程基础,35分钟即可完成。通过安装Ollama、选择合适模型、配置浏览器插件,读者可获得完全免费、响应迅速、隐私安全的本地AI助手,并实现联网搜索功能。文章提供了详细的硬件配置要求和安装步骤,解决无网络环境下使用AI的需求,是打造个人知识库的理想选择。
本文除了介绍安装大模型 phi-4 和 千问 2.5以外,还会详细介绍大模型本地部署的一些概念,适合感兴趣的朋友阅读,,完整阅读预计 10分钟。
如果你只想看安装部分,可以跳着看哦~
我现在的生活已经离不开 AI 了,他帮我度过了许多工作中的卡壳时刻。
不过我经常遇到:
在飞机上赶方案,正好卡住,想找 AI 帮忙,但是许多航班并没有网络服务。
需要处理公司内部事务,需要 AI 帮忙分析,但是…不敢把内容传到其他平台。
急需一个本地能跑的大模型,如果能联网搜索,就更好了。
看完本文,你就能收获一个能联网搜索的本地 AI 对话软件。

本地大模型的优势:

🆓 完全免费:不用每月支付 ChatGPT Plus 的订阅费
🚀 速度飞快:本地运行,不用等待网络延迟(快慢取决于你的电脑配置)
🔒 隐私安全:所有对话都在你自己电脑上完成,数据安全有保障
💪 完全控制:可以自由选择和调整模型
⚡ 永不掉线:不需要联网也能用,在飞机上、火车上没有网络也能随时可用
简单来说,100% 本地运行,100% 安全,100% 免费。
而整个过程只需要 35 分钟,并且不需要任何编程基础。
⏱️ 安装 Ollama:10分钟
⏱️ 下载模型:15分钟(取决于网速)
⏱️ 安装浏览器插件:5分钟
⏱️ 设置和测试:5分钟
Ps. 如果部署出错,可以在后台留言,我尽可能帮你解决。
开始之前
需要检查电脑配置
/ 01
懒得看的可以直接跳到二节。
01
什么样的配置能跑本地模型?
简单理解,大部分能运行吃鸡的游戏都能安装大模型。
大模型的运行主要看显存,硬件配置上,最基础的配置需要至少8GB显存或统一内存,不过这种配置只能跑4bit量化(先不用管量化的概念)的7B小模型,效果和性能都比较一般。
如果想要日常使用,建议配置16GB显存,这样可以跑INT8量化的13B模型,或者完整加载7B模型,使用体验会好很多。
比较理想的配置是24GB显存,可以完整加载13B模型,量化后甚至可以跑更大的模型。
如果是专业开发,最好是 32GB及以上的显存,这样就能玩转更多大模型,也有更好的扩展性。
说到实际使用体验,消费级显卡大概需要2-4秒才能给出回复,专业显卡可以做到1-2秒,如果用CPU推理可能要等5-10秒。
另外,本地大模型运行时,最好预留30%的显存给系统开销,特别是长对话可能会逐渐累积显存占用。
02
检查我的配置
Windows用户:
按下 Win + X,选择"系统",在系统页面可以查看内存大小。

按下 Win + X,选择"设备管理器",在设备管理器中可以查看显卡型号。

如果“显示适配器”显示 Inten® HD Graphics xxxx ,意味着你的设备是集显,虽然说不完全不能装,但可能性能会比较糟糕。
Mac用户:
点击左上角苹果图标,选择"关于本机",可以看到内存大小和芯片型号。

03
基础配置要求
Windows电脑配置要求:
💻 内存:最少 8GB,建议 16GB
🎮 显卡:需要 NVIDIA 显卡,显存至少 4GB(比如 GTX 1060 或更好的)
🔧 CPU:2014 年后的CPU一般都可以
💾 硬盘:至少要有 20GB 的空闲空间
推荐配置:
入门级可以选 RTX 3060 12GB,
主流配置是 RTX 4080 16GB,
高端就是 RTX 4090 24GB(也可以等 5090…)。
Mac电脑配置要求:
Intel Mac:
💻 内存:最少 8GB,建议 16GB
M系列 Mac(M4/M3/M2/M1):
💻 统一内存:最少 8GB,建议 16GB 或以上
⚡ 性能提示:统一内存越大,运行越流畅
推荐配置:
M1 Pro 及以上的机型(16GB以上统一内存)都可以尝试。
推荐 M4 Pro 以上机型,性价比最高。
开始安装 Ollama
/ 02
Ollama 是本地跑开源大模型最好的软件之一,不管是 windows 还是Mac,都能通过它跑各类模型。
浏览器打开 ollama.com ,点击下载按钮,选择对应的操作系统可以了。

安装Ollama的流程及其简单,直接无脑下一步即可。

接下来运行控制台。Windows 按下 Win + R ,输入cmd。
苹果用户找到 “终端” ,启动。
输入
ollama -v
看到下面的信息就表示安装成功了。
ollama version is 0.5.4
如果没有安装成功,请重新安装试试,或者后台留言。
挑选合适的模型
/ 03
已经安装好了 Ollama 之后,接下来就是选择合适的模型。
01
推荐模型
如果你平时使用英文环境,推荐:
phi-4
llama 3.2
mixtral
gemma2
如果你平时使用中文环境,推荐:
qwen2.5
glm4
如果你想要使用大模型写代码,推荐:
qwen2.5-coder
接下来,就是挑选合适的模型尺寸。
模型尺寸可以在 ollama.com/search 上查看

下面蓝色的标签含义是:模型支持的尺寸,比如 千问(qwen2.5)模型就有 0.5b - 72b 等多种尺寸可选。
进入模型介绍页面后,还可以点 Tags 查看模型的所有尺寸。


Ollama 的模型命名相对规则,遵循下面规则。

02
大模型的尺寸有哪些?
从小到大来说,目前主流的大模型尺寸大概:
· 1B左右的小模型能做一些基础的对话和补全:比如 llama3.2 就只有 1B。
· 7B是目前最受欢迎的尺寸,速度快而且可以应付大部分对话与思考场景。像 Llama3.1-8B、Mistral-7B都是这个大小,在家用显卡上就能跑,而且效果已经相当不错。
· 13B算是性能和资源消耗的平衡点,比如 Qwen2.5-14B。这个尺寸的模型能力明显比7B强,但对硬件要求也更高。
· 30B-35B是专业级需求性价比最高的尺寸,这个档位的开源大模型不太多,一些不错的比如Yi-34B 或 Qwen2.5-32B。
· 70B现在是开源大模型的天花板级别,像Llama2-70B、Qwen2.5-72B 就是这个量级。不过一般人在本地很难跑起来,得多个显卡才行,主要是研究机构和大厂在用。
· 更大的模型比如GPT-4,参数量可能上千亿,具体多大外界也不太清楚(据说 4o-mini 只有 8b,但没有官方证实),但这种级别的模型需要大量算力和优化技术支持,一般都是通过API调用。
为了便于分辨显存和大模型之间的关系,我简单列了一个关系表。
如果觉得模糊,后台回复“显卡”下载原版高清版本。
显卡可运行大模型关系表:

03
什么是大模型量化?
什么是量化?
量化就是把AI模型中的数字变得更"简单"。原本模型里的数字精确到小数点后很多位,量化后用更简单的数字代替,这样可以让模型变得更小,运行更快。
核心概念:
用更省空间的方式表示数字。比如:
- 原始数字:3.14159265359 → 量化后:3.14
- 原始数字:9.99999999999 → 量化后:10
通俗的例子,就像微信发照片:
- 原图:超清晰,但文件很大
- 压缩图:稍微模糊一点,但文件小很多
- 实际聊天时,压缩图也够用
为什么要量化?
没有量化的问题:
- 模型太大,家用电脑带不动
- 运行太慢,响应不及时
- 需要很贵的显卡
量化后的好处:
- 体积变小,普通电脑也能用
- 运行变快,响应更及时
- 便宜的显卡也能跑
04
或者安装下面的模型?
了解基本概念过后,我们就可以更好地挑选合适自己的大模型了。
我们可以点击开始按钮,输入 cmd 之后回车,打开命令控制台。
Ollama 的安装指令是:
ollama run 模型名称
推荐你使用:
ollama run qwen2.5:3b
ollama run qwen2.5:7b
ollama run qwen2.5:14b
ollama run phi4
ollama run glm4
输入指令之后,如果你已经下载好了模型,就会直接进进入对话,如果没有,就会进入下载流程。

当你看到这个界面的时候,恭喜你,你已经完成了大模型的本地部署。

但丑丑的控制台体验不好,我们要想办法搞一个好看的界面。
下载一个好用的浏览器插件
/ 04
这里推荐一个开源的聊天界面:page-assist
这是一个体验极佳的开源插件,整体交互体验类似ChatGPT。

首先,先访问 github ,安装或者下载浏览器插件。
https://github.com/n4ze3m/page-assist
如果你能访问谷歌,就点击右侧的链接直接安装;
如果你不能访问谷歌,就点击右下角的 Release ,下载官方安装包。

下载完成之后,找到一个合适的地方,解压缩。
推荐保存到 D盘的 Program Files 文件夹下面。

下载完成后,进入谷歌浏览器,然后点击右上角,找到管理扩展程序。

打开开发者模式之后,点击加载已解压的扩展程序。
找到刚才保存的位置,点击选择文件夹就可以了。

这个时候,地址栏右侧,有一个 气泡的按钮,点击就可以启动了。

现在你就可以使用本地的 AI 了!

进阶:联网搜索
/ 05
我们需要先安装一个内容解析的模型,推荐使用:
ollama run nomic-embed-text
然后点击 RAG 设置,选择刚才下载好的模型,点击保存。

再创建新聊天,你就拥有了你自己的 秘塔搜索 或者 kimi啦!
让我们试一试搜索最新的信息,确认 AI 是从网上找的答案。

AI时代,未来的就业机会在哪里?
答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具,到自然语言处理、计算机视觉、多模态等核心领域,技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

掌握大模型技能,就是把握高薪未来。
那么,普通人如何抓住大模型风口?
AI技术的普及对个人能力提出了新的要求,在AI时代,持续学习和适应新技术变得尤为重要。无论是企业还是个人,都需要不断更新知识体系,提升与AI协作的能力,以适应不断变化的工作环境。
因此,这里给大家整理了一份《2025最新大模型全套学习资源》,包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等,带你从零基础入门到精通,快速掌握大模型技术!
由于篇幅有限,有需要的小伙伴可以扫码获取!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

5. 大模型行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

为什么大家都在学AI大模型?
随着AI技术的发展,企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。
同时很多人面临优化裁员,近期科技巨头英特尔裁员2万人,传统岗位不断缩减,因此转行AI势在必行!

这些资料有用吗?
这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


大模型全套学习资料已整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

更多推荐

所有评论(0)