文章详细介绍了DeepSeek大模型的本地化部署架构、知识库集成及调用流程。重点解答了四个关键问题:本地化部署的优势在于提高稳定性和效率、知识库建设能有效解决模型幻觉问题、不同知识库内容不会互相学习影响、通过调整temperature参数可控制回答的随机性。对政府和企业的集约化部署提供了实用参考,强调了私有化部署在数据安全和成本控制方面的价值。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

DeepSeek最近大火,尤其在自然语言处理方面的能力,受到全世界各行各业的广泛关注。网上有非常多的关于DeepSeek的文章,都是其技术特点和优势以及如何提问让结果更准确的科普文章,对应用中的一些基本问题却很少提及,结合最近的一些学习内容,整理一篇DeepSeek的常见术语及私有化部署中常遇到的几个问题,供大家参考。

一、本地化部署架构

本地化私有部署的技术方案和使用的框架有很多,这里暂不涉及如何部署及涉及的技术原理,先说下主要的部署架构。

1、算力底座。我们假设是针对企业、政府等大型应用场景,对算力要求比较高,首先需要购买一定的算力资源,主流的主要有英伟达和国产的昇腾芯片,按需选择即可。如果个人实验的话,用个人电脑也能部署一套大模型。

2、本地化部署大模型。有了算力资源(其他服务器、网络等资源这里不做体现),可以部署DeepSeek-R1/V3 671B及各种蒸馏版本的模型,当然也可以部署其他的模型,这里以DeepSeek为例说明。本地化部署完成后,可以对外提供统一的API调用接口。

3、本地知识库。从应用的角度来看,本地知识库不是必须建设的,部署好DeepSeek后,上层应用就可以通过统一的API进行调用了。但是如果直接调用DeepSeek,由于他的知识只限于2024年7月份之前的信息,所以很多新的信息他是不掌握的。搭建本地知识库能够获得自己单位、部门相关性更高的知识,回答的内容更精准。本图中所示的知识库1、知识库2是物理隔离的。

4、用户应用。应用可以是网页、APP、小程序等各类应用,不限形式,需要研发人员支持对接知识库和大模型,提供更好的功能。

二、本地化部署+知识库的调用流程

图中步骤1、应用查询本地知识库。用户访问应用,提出问题;应用将问题向量化,然后先去本地知识库查询相关的内容。

图中步骤2、获取本地知识库的内容。根据用户的问题,检索本地知识库相关性更高的内容,将查询到的内容返回给应用。

图中步骤3、应用调用本地DeepSeek服务API。应用对2的结果做相应的转换和适配;拿结果作为输入调用DeepSeek的API。

图中步骤4、DeepSeek重新组合,返回结果。DeepSeek收到问题,结合已经学习的知识,加上本地知识库检索到的新知识,重新排列组合,生成全新的内容;把生成的内容返回给应用;应用将返回结果做呈现。

三、本地化部署的几个问题

1、为什么需要本地化?

简单来说就是调用官方的模型,效率和稳定性上无法满足政府、企业商用的需求,调用官网或其他厂家推出的大模型,一般按照使用量进行收费,后期成本不可控。本地部署,优点是:专门供本单位使用,稳定性、效率都能保证,并且没有调用次数的限制。缺点:前期投入大,对人员技术水平要求较高,安全方面需要投入更多资源。

对于政府和集团性企业来说,集约建设是首选模式,由一个单位或部门牵头先部署一套,其他单位和部门先共用一套模型的能力,降低前期的投入,当后续使用量逐步增大以后,可以考虑架构的优化和演进。

2、为什么需要知识库?

一句话总结:调用大模型时需要建设本地知识库的主要原因是为了解决大模型的幻觉问题并提升其在特定领域的应用效果。

大模型如GPT、千问、DeepSeek等通用大模型在特定场景下容易产生幻觉问题。幻觉问题指的是大模型生成的内容看似合理,但实际上包含错误、虚构或矛盾的信息,这严重影响了其可靠性和应用落地。幻觉问题的原因包括数据缺陷、参数知识偏置、对齐不足、解码策略缺陷以及多模态局限等‌

通过构建本地知识库,可以显著缓解大模型的幻觉问题。本地知识库是一个存储特定领域知识的数据集,可以是结构化的数据库、文档集合或其他形式的信息源。与通用知识库不同,本地知识库专注于特定的业务需求或领域,提供更为精确的信息和上下文。本地知识库的主要作用包括:‌减少幻觉‌,通过动态检索外部知识库(如文档、数据库等),弥补通用大模型在知识时效性、专业领域覆盖等方面的缺陷,生成更可信的答案‌;‌动态数据支持‌,整合最新或专有数据,无需重新训练模型,提高生成内容的实时性和准确性‌;透明度高,提供检索来源作为依据,增强用户信任‌;‌多模态处理‌,支持文本、图像、音频等数据类型,扩展应用场景‌。

3、本地不同知识库的内容会不会被DeepSeek内容拿来学习和训练,以上图为例,应用2在调用DeepSeek时会不会得到知识库1的内容?

私有化部署的DeepSeek模型在本地部署后,其参数和知识范围已固化,模型本身不会通过用户调用动态学习或使用本地知识库的内容。并且提供的接口已经标明了用途,每次调用均为独立的检索过程,不会拿知识库的内容进行微调或训练,本质上仍是检索式增强,而非学习式增强。

大模型的微调和训练是需要专门的程序和训练框架,涉及数据集准备、模型选择和初始化、参数调优与训练、验证部署等,是一个复杂的系统工程。

在本图的例子中,应用1和应用2在调用DeepSeek模型时,只能分别使用各自对应知识库的内容。

注:以上回答是基于对API文档及网上搜索答案理解内容,不是DeepSeek官方回答,仅作为参考,实际使用时,务必注意信息安全,以免关键信息泄露。

4、私有化部署模式下,为什么两个人问同样的问题,得到的回答却不一样。

API调用文档里写了,其中一个参数“temperature”:采样温度,介于0和2之间。更高的值,如0.8,会使输出更随机,而更低的值,会使其更加集中和确定。如下表中是官方给出的不同场景的建议值,代码生成和数学解题需要精确的结果,不能不同的人问的结果不一样,所以值设置为0。在对话和创意写作等场景下,设置更高的值,可以保持回答结果的多样性,不会千篇一律。使用时要根据场景不同进行动态调整,设置更恰当的数值。

场景 温度
代码生成/数学解题 0.0
数据抽取/分析 1.0
通用对话 1.3
翻译 1.3
创意类写作/诗歌创作 1.5

| 数据抽取/分析 | 1.0 |
| 通用对话 | 1.3 |
| 翻译 | 1.3 |
| 创意类写作/诗歌创作 | 1.5 |

文章来自网上,侵权请联系博主
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐