一、AI时代知识为什么很重要

在 2024 年百花齐放的 AI 应用中,Gemini Pro 的深度研究功能与 Manus 的任务执行能力,无疑是最令人眼前一亮的突破。它们不再是简单的信息整合工具,而是初步具备了 “自主规划、分步落地” 的能力 —— 用过的人往往会有同感:AI 似乎真的摸到了 “类思考” 的门槛。

但惊艳之余,这些 AI 的 “企业适配短板” 也逐渐显现。比如,任务执行的失败率仍居高不下,有时明明规划路径无懈可击,最终结果却与预期脱节;对我而言,最关键的问题在于:Gemini 的深度研究功能无法理解企业特有的业务逻辑。哪怕是行业头部企业,其核心业务流程往往掺杂着 “不成文的规则” 与 “定制化的操作”,这些难以用文字精准描述的 “隐性经验”,恰恰是 AI 的盲区。这就导致 AI 给出的方案再专业,也可能因为脱离实际业务场景而沦为 “空中楼阁”。

由此可见,在企业级 AI 应用中,专属知识库绝非可选配件,而是必备根基。这就像聘请了一位全球顶尖的管理咨询顾问,若对方对公司的业务流程、客户特点、内部协作模式一无所知,即便报告写得逻辑缜密、辞藻华丽,也无法解决实际问题 ——AI 再智能,没有企业知识的 “喂养”,也只是 “巧妇难为无米之炊”。

二、什么是知识

既然提到了知识库,那么我们首先来探究一下什么是知识。我们可以参考维基百科和百度百科的解释:

知识是对某个主题“认知”与“识别”的行为藉以确信的认识,并且这些认识拥有潜在的能力为特定目的而使用 —— 维基百科

知识指人类在实践中认识世界的成果 —— 百度百科

百度百科的解释较为简练,维基百科则提到了知识的“主题”属性以及“使用潜力”。由此可见,面向主题和具备使用潜力,应该是知识的重要特性。

另外,在现实生活中,我们常常难以区分数据、信息和知识。若要明确什么是知识,有一个1980年之前提出的著名认知架构——DIKW金字塔。它认为,数据是最基础的层面,其上是信息,再往上是知识,最顶端则是智慧

不过,我个人更认同前喜茶和百果园的CIO沈欣老师的定义(作者在文字描述上做了修改,内容基本一致):知识是一种可验证、显性的经验模型。同时,知识的层次可以划分为数据—>信息—>经验—>知识。将知识定义为一种可验证且显性的模型,更有利于现代计算机及AI系统去理解和运行。关于数据、信息、经验和知识之间的关系与递进,可用下图准确诠释。

在这里插入图片描述

图1:沈欣老师给出的数据、信息、经验和知识的递进关系

上图对数据、信息、经验和知识作出了完整定义,具体如下:

  • 数据:是反映客观事实的数字、符号或记录。
  • 信息:指经过整理、归类或分析的数据,被赋予了意义和目的。
  • 经验:属于技能或认知范畴,通常依赖个人或组织的积累。
  • 知识:是可验证的业务模型,能够指导决策和行动。

图中还有一个生动的例子,用于阐述这四者之间的区别,大家可以自行阅读。其中,有一句话给我留下了极为深刻的印象:经验属于个人隐形认知,而知识是显性化的、可复用的体系单元

在AI的企业落地实践中,就算力和大模型的使用而言,在一定程度上是“众生平等”的,当然,这里说的是推理环节。然而,在如何用好AI这件事上,我们最需要的是让知识发挥作用,而最难的也正是知识的转化与积累。

正如上图所表达的,当发现用户频繁点击某款运动鞋的详情页却没有下单时,巧妙地给用户发放一张优惠券以促使成交,并且将原本属于运营人员的个人经验进行模型化,让AI能够直接使用,这才是真正完成了知识转化。

在企业内部,类似的例子不胜枚举。例如:

  • 面对各种不同条件,有经验的造价师计算价格的方式,其实就是一种知识模型;
  • 金融行业在进行风险识别与判断时,除了依托大数据,各类知识模型也发挥着重要作用;
  • HR在初筛阶段根据用人需求挑选合适简历的方法,同样是一种知识模型。

这样的例子在各行各业都存在。其实,彼得·德鲁克在《为成果而管理》一书的第三章中就明确指出,企业的关键资源只有两类:一类是知识,另一类是资金。并且,该书第七章专门讲到了知识即企业,他还超前地预测,终有一天,人力终将被机器取代,知识在企业运转过程中的重要性将愈发凸显。未来,企业竞争的关键点就在于我们的知识质量有多高

关于知识是什么,以及知识在企业业务中的重要性,就先讲到这里。接下来,我们看看如何让知识在AI中发挥作用。

三、如何让知识在AI中发挥作用

要让知识在AI时代发挥作用,并非易事,它需要具备一定的科学性和系统化能力。这一过程可以分为三个部分来阐述:

  1. 知识构建:探讨如何将企业中的数据、信息和经验转化为知识。
  2. 知识应用:研究如何利用AI来运用知识。
  3. 知识运营:思考如何保持AI知识系统的可用性。

我们日常接触到的各类信息,更多聚焦的应该是第二部分——知识应用。但实际上,作为一个真正的企业级知识库,必须同时兼顾这三个部分,否则只能沦为玩具。下面,我就来详细分享这三部分的内容。

在这里插入图片描述

图2:AI企业级知识库的三大组成部分

3.1 知识构建

在企业里,知识通常分散在多个地方,像OA系统、传统知识库、网盘、员工个人电脑以及各类结构化数据库等。要是不能把这些知识聚集起来并加以组织,企业就很难真正成为知识驱动且富有效率的组织,而知识构建的任务就是要完成这件事。

知识构建大致分为几个步骤,分别是知识导入知识加工,以及如何将数据和文档转化为知识。下面我们将一步步了解知识构建的具体过程。

在很多传统的书本和论文中,提到的知识构建基本都与知识图谱相关,比如常见的RDF(资源描述框架)。不过,关于如何利用知识图谱构建知识以及如何进行知识双链等内容,我们会在后面的文章中再做探讨。今天,我们先从一些相对简单的内容讲起。

3.1.1 知识导入

知识的来源有很多,相信阅读这篇文章的你对此并不陌生,主要包括以下几类:

  • 本地文件:企业内部电脑中存在大量本地文件,常见格式有Word、Excel、PPT、PDF、TXT和图片等,此外还有视频、CAD等特殊格式。
  • 原有系统:企业原有的各类数据和知识系统,涵盖传统知识库、文档管理系统、OA、数据库,以及钉钉、飞书、企业微信等更综合的办公软件。
  • 外部知识:对于现代企业而言,从互联网获取相应知识内容变得越来越重要,因此知识库的知识导入必须支持外部知识的导入。
  • 其他:还有各类纸质版知识,这些需要通过扫描或人工录入的方式,才能被机器使用。

知识导入的工作主要包括两个方面:一是为本地文件的批量上传提供入口;二是通过API对接等方式,实现原有系统内数据和知识的自动化导入。

在这里插入图片描述

图3:知识导入触发条件

一般可以用三种方式实现知识导入的自动化触发:

  • Webhook:接受指定的触发事件时开始知识导入/抽取,如原有系统有新建文档产生;
  • 定时触发:相对机械化的定期任务设置,如每天固定时间/每小时/每分钟等;
  • 定时触发(高级):可自定义的定时任务,如使用Cron表达式等。
3.1.2 知识加工

如果说知识导入决定了入库知识的数据量和时效性,那么知识加工则很大程度上决定了入库知识的质量。

知识加工和数据ETL过程是类似的,也同样包含抽取(Extract)、转化(Transform)和加载(Load)等过程,目的是为了让知识具备更强的可表示性、可用性和关联性。在TorchV AIS和TorchV KBS的知识加工环节,我们会使用流程编排来完成以下一些知识加工过程:

  • 内容抽取:按一定的逻辑结构抽取目标文档中的内容,包括文本直接提取、表格解析提取等,TorchV的产品还支持.doc文本和表格的提取(现已开源,欢迎关注:https://github.com/torchv/torchv-unstructured);
  • 处理算子:在知识加工的流程编排中增加数据脱敏、内容赋权、ASR、摘要等处理算子,以及增加条件分支、循环、条件筛选等逻辑控制算子;
  • 知识清洗:和数据清洗不太一样的是,知识清洗更多是将内容转化为Markdown,并去除一些标记语言,如HTML的EL;
  • 知识丰富:包括知识打标、添加上下文辅助、知识双链和知识合并等。

知识加工与知识导入的自动化结合,将大大提升知识入库的效率和质量。

在这里插入图片描述

图4:知识加工流程编排

3.1.3 如何将文档转化为知识?

终于到了最难的问题,当然也是最有价值的问题。

我们和一些头部企业交流的过程中发现,图1中的数据、信息的使用,如果不考虑效果的情况下,对他们来说都已经实现了,我们可以狭义地认为就是使用RAG对文档和数据进行检索和生成。但是在企业实际业务中,大家还是希望能再进一步,能让AI实现更高阶的知识价值,如实现图1中经验和知识的使用。

从实际价值来说,从数据、文档中获取知识,把专家的个人经验和集体的经验转化为显性的知识,可以为企业带来很多好处,包括:

  • 知识传承:大型组织中,老员工的退休,会带走大批宝贵个人经验。如何将这些个人经验转化为显性的知识,做好知识传承,对于企业留住知识非常关键。
  • 业务智能化:类似图1中的电商场景,有效的知识应用可以让AI系统处理有经验的运营人员才能做的事物,让业务处理越来越智能。
  • 其他:企业中知识的应用不胜枚举,这里不再扩展,包括新闻事件的关联影响分析对金融行业的帮助,以及工程造价环节中成本估算和工程参数判断等诸多场景,都不是简单的文本RAG就可以解决的,而是需要将个人或集体的经验变成机器可以应用的知识,才能实现更高的AI和知识应用的价值。

如何将数据、信息和文档转化为知识是有一些科学方法的,目前我们用的方法是基于SECI模型,下面简单介绍一下该方法,更多内容会在后续TorchV的AI知识库产品中体现。

SECI模型介绍

SECI模型是在1985年由*野中裕次郎(Ikujiro Nonaka)竹内弘高(Hirotaka Takeuchi)*两位日本学者提出来的,内容包括知识产生的四个过程和各自产生的场(Ba),这里我们不介绍场的概念,有兴趣的朋友可自己研究。下面介绍一下SECI的四个阶段:

  • 社会化Socialization):它是一个通过共享经历建立隐性知识的过程,而获取隐性知识的关键是通过观察、模仿和实践。这是知识的隐性到隐性过程;
  • 外在化Externalization):它是一个将隐性知识用显性化的概念和语言清晰表达的过程,其转化手法有隐喻、类比、概念和模型等。这是一个隐性到显性的过程;
  • 组合化Combination):它是一个通过各种媒体产生的语言或数字符号,将各种显性概念组合化和系统化的过程,多种有效知识找到关联,产生更大的作用的过程。这是一个将显性知识和显性知识组合产生更大作用的过程;
  • 内化Internalization):它是一个将显性知识形象化和具体化的过程,通过“汇总组合”产生新的显性知识被组织人们吸收、消化,并升华成他们自己的隐性知识,应用到工作中并接收反馈。这是一个从显性知识到人人内化为行动的过程。

SECI模型实例

为了更清晰地理解SECI模型,我举一个现实中的例子(可能存在逻辑漏洞,但已尽力完善),具体如下:

1. 社会化过程

假设当今社会没有天气预报。某天,老李和老刘在小区门口看到天边黑云密布,老李说自己昨天看到黑云后出门,十几分钟就被淋成了落汤鸡。老刘表示自己也遇到过几次类似情况,随后围过来的老陈、老王等人也纷纷称有过相同经历。大家通过充分交流,共享了关于“黑云压城要下雨”的隐性知识,并达成了共识,这就是社会化过程。

2. 外在化过程

没过多久,很有文化的大刘将这个共识编成了一句类似谚语的话:“红云变黑云,马上大雨淋”。这句话逐渐流传开来,变得妇孺皆知,原本的隐性知识被转化为显性知识,这就是外在化过程。

3. 组合化过程

开杂货铺的老吕发现,突然下雨时雨伞往往供不应求。于是他联想到“黑云出现会下雨”的常识,想到如果天边黑云增多,就把雨伞从店内搬到门口,这样能增加销量。通过将不同知识关联组合,产生了更具应用价值的新知识,这就是知识的组合化过程。

4. 内化过程

最后,老吕在收银机上贴了一张卡片,上面写着:“窗外黑云越来越多,就把雨伞搬到店门口”。这张卡片成为了店里的员工操作指南,无论哪个班次的员工看到,都会按照卡片上的指示去做,并且逐渐形成了习惯。组合知识由此被内化为每个员工的习惯,这就是内化过程。

从实例看人类社会知识构建逻辑

从这个例子中,我们可以发现人类社会构建知识的路径:

  • 首先,通过交流发现共识(社会化);
  • 接着,将共识转化为可供传播和教学的常识(外在化);
  • 然后,将常识与其他知识关联组合,形成对业务有帮助的组合知识(组合化);
  • 最后,将组合知识转化为最佳实践等标准作业程序(SOP)(内化)。

SECI作为80年代出现的知识构建模型,当然有时代局限性,特别是在计算机、互联网和AI还未大面积普及的时候。其缺陷主要是:

  • 无法为企业带来一套有效的知识构建方法,更多存在于理论研究和发现层面;
  • 缺少更广泛和更新的知识,比如当代大模型中包含的知识,以及借助互联网获得的知识等;
  • 其最后内后的结果更多是作用于人,但人才流动是当今社会的常态,我们更需要把知识沉淀在企业内部的系统中。

SECI模型在TorchV知识库的实现

但是在AI时代,这些缺陷是可以被弥补的。下面我们来看看TorchV的AI企业知识库是怎么实现SECI过程的,当然这里只做简单分享。

  • 社会化:TorchV知识库可通过知识加工获取权限内的内容,包括会议纪要、群聊天内容、日报周报 ,以及企业自身的传统知识库和OA等,在这些内容中发现传播度/讨论度较高的内容,进行共识提取,形成企业内的潜在知识;
  • 外在化:TorchV知识库通过潜在知识提炼,形成内部的一个个知识主题,具体的表现形式是应用空间(知识空间),参考图5;
  • 知识组合:应用空间的主要作用就是在知识仓库的基础上引用/复制更贴合主题的知识,比如从多个部门的知识仓库中引用关于贷款审批辅助的知识,打破了部门墙,为某一应用主题形成了组合型的知识;
  • 内化:知识空间与在其之上构建的智能体进行结合,形成了一个可以被智能触发而处理或分析业务的AI应用。这时候知识就不仅仅只存在于人脑里了。

在这里插入图片描述

图5:TorchV的AI企业知识库的知识构建过程。

当然,这里面有很多具体的技术细节,包括大模型在其中发挥的作用,资源描述框架(RDF)和标签属性图(LPG)在不同场景起到的知识组织和串联作用,以及依然需要人的动作来形成整个闭环等。比如AI专家访谈,可以将AI自动整理的知识存在多种潜在可能性的时候,对人类专家发起邀约,通过具体项目过程的复盘补充和固化这些知识。这些在后面的文章,或者TorchV新版本企业知识库产品正式发布的时候再做进一步说明吧。

3.2 知识应用

由于在3.1中篇幅没有控制好,所以在知识应用章节我不想讲太多,只想分享一下应用形态。

知识库作为AI系统中的底层组件,可以通过API被任何应用所接入,如我们的很多客户会在TorchV知识库上面对接dify,所以从应用形态上来说其实被没有明显约束。但AI知识库也有一些非常契合的自带应用,适用于绝大多数企业客户的使用。TorchV对于知识库的默认AI应用可分为三类:帮我找、帮我写以及帮我做。

在这里插入图片描述

图6:三种AI应用形态,帮我找、帮我写、帮我做。

帮我找的形态相对比较简单,主要还是Chatbot,包括实时交互的RAG问答,以及异步的Deep Research。

帮我写主要是基于在线编辑器,包括常见的合同、标书、会议纪要、邮件等的编写,其特点是已经连接了写这些文档内容所需要的知识,很多时候只需一键生成即可。如图7所示。

在这里插入图片描述

图7:编辑通过企业知识库的AI应用写日报周报。

帮我做则更多是操作类型的,比如请假、预约会议室等。界面是双栏模式,左侧带有界面,有一些操作在有界面的情况下更方便,下图是预约会议室的界面。

在这里插入图片描述

图8:帮我做的会议室预约。

3.3 知识运营

知识库的状态与人体有相似之处:人体每天会产生大量自由基,若缺乏有效的清除机制,人会立刻生病;知识库也是如此,每天有新文档和新知识不断涌入,极易产生内部噪声,进而影响知识检索的准确性和使用效果。

关于知识运营的具体内容,将在后续文章中详细阐述,本文仅介绍其主要手段:

知识降噪:定期检查重复文档和冲突文档,发现后推送给知识管理人员处理。这一操作主要针对重要知识,不建议由AI自动解决知识的重复或冲突问题。不过,当企业内部已建立成熟的知识管理制度且积累了丰富处理经验后,也可让AI直接自动处理此类问题。

知识刷新

  • 一类是知识自动刷新,即当明确新知识可替代老知识时,利用AI自动替换,并更新原有文档在系统中的各类链接及被引用情况。
  • 另一类是知识状态的更新,例如在项目计划中替换项目经理人选等。
  • 最后一类针对具备时效性的知识,若有更新内容或已过保鲜期,需将其转为冷知识。

四、总结

为什么AI在toB侧的应用常常让人感到失望?我们可以听听合作过的客户怎么说。

我们与不少处于AI应用第一梯队的客户进行了深度交流与合作,他们认为,以建设为导向推进应用、将应用作为目标,这本身没错。但AI企业知识库才是根基,是企业真正需要下大力气夯实的部分。关键在于如何从企业自身的业务资料中提炼出知识,并让这些知识能被AI所用。

他们觉得,应用环节其实不应由厂商操心,因为不同企业和岗位的业务存在独特差异,只有企业自身最了解业务,也最清楚如何设计应用才能真正发挥价值。企业可以通过外包驻场开发,或使用Dify等工具进行工作流编排来解决应用问题。

而AI企业知识库才是他们真正需要我们这类产品技术型厂商提供帮助的地方。因为它涉及一整套融合了理论知识、最佳实践、系统化方案及技术难题的综合产品,确实无法依靠企业自身能力或普通外包人员解决。并且,AI企业知识库恰恰决定了企业AI应用能否达到预期要求。

在AI时代,企业的竞争力不再仅仅取决于谁的模型更大,还取决于谁能更好地掌控知识。

那么,如何系统的去学习大模型LLM?

作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

为什么要学习大模型?

我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。

在这里插入图片描述

在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐