Dify 2.0.0 beta.2 发布，4 大提升，AI 开发效率飞升！

第二步，文字部分送到文本理解模块；不过，一个由我们中国团队主导的开源项目Dify，最近发布了一个新版本，叫Dify 2.0.0 beta.2，它就像是给AI应用开发领域带来了一套全新的、高效的施工方案，让原来复杂的事情变得简单了许多。现在，具备了多模态能力的AI可以直接“看”懂整张发票的布局，它能准确地知道哪个是抬头，哪个是总金额，中间的表格里又有哪些具体的消费项目。但是，大家可能不太了解的是，在

云雅_KCL

1102人浏览 · 2025-09-13 12:07:31

云雅_KCL · 2025-09-13 12:07:31 发布

最近，人工智能这个词可以说是无处不在，从我们手机里的智能助手，到各种能写文章、会画画的应用，我们每天都在享受着它带来的便利。

但是，大家可能不太了解的是，在这些光鲜亮丽的应用背后，开发它们的过程其实相当复杂和繁琐，对很多公司和开发者来说都是一个不小的挑战。

就像盖一座房子，你需要打地基、砌墙、接水电，每个环节都不能出错，而且成本还很高。

不过，一个由我们中国团队主导的开源项目Dify，最近发布了一个新版本，叫Dify 2.0.0 beta.2，它就像是给AI应用开发领域带来了一套全新的、高效的施工方案，让原来复杂的事情变得简单了许多。

这次更新主要有四个方面的重大提升，我们来用大白话一件一件地聊清楚，看看它到底解决了哪些实际问题。

首先，我们来谈谈第一个大提升，它解决的是AI“学习资料”的问题。

我们都知道，要想让AI变聪明，就得给它“喂”大量的资料去学习，这个过程在技术上叫做RAG，也就是检索增强生成。

简单来说，就是你给AI一堆文件，然后问它问题，它会从这些文件里找答案再告诉你。

这个想法很好，但在实际操作中却遇到了一个大麻烦。

比如，我们平时工作中最常见的PDF文件，里面不光有文字，还有很多重要的图表、图片和表格。

以前的AI在处理这种复杂文件时，往往会“犯迷糊”，它可能只认识文字，却把图表和图片当成不存在，或者因为格式太乱而读不懂。

这就好比你让一个学生看一篇图文并茂的科学报告，却蒙上他的眼睛只让他听文字，那他肯定无法完全理解报告里的核心信息。

这样一来，很多有价值的数据就白白浪费了，AI给出的答案自然也就不够准确和全面。

为了解决这个难题，Dify这次推出了一个叫做“知识管道”的新功能。

你可以把它理解成一个为信息处理量身定制的“精加工流水线”。

以前处理文件是一条路走到底，不管什么都用同一种方法，效果当然不好。

现在，Dify提供了七种不同的处理模板，就像工具箱里有锤子、螺丝刀、扳手一样，你可以根据文件的具体情况，自由组合这些工具来搭建一条最合适的处理流程。

比如说，一家金融公司需要处理大量的贷款合同PDF，这些合同里既有文字条款，也有关键的利率数据表格，还有客户的签名图片。

利用知识管道，他们可以这样设置流程：第一步，先用专门处理复杂PDF的模块把整个文件拆解开；第二步，文字部分送到文本理解模块；第三步，调用表格提取模块，把利率、还款期限这些关键数据精准地抓取出来，变成结构化的信息；第四步，再用图像识别模块去检查签名图片是否清晰有效。

整个过程分工明确，各司其职，就像一个配合默契的团队。

根据实际应用的数据来看，有金融企业用了这个功能后，查询和审核合同的效率直接提升了40%，这就是技术带来的实实在在的改变。

说完了AI如何更好地“读书”，我们再来看看第二个提升，它解决的是AI“干活”的效率和稳定性问题。

一个AI应用的工作流程，通常是由好几个步骤串联起来的。

比如一个电商网站的自动处理订单系统，它可能需要先查询商品库存，然后验证顾客的收货地址，接着计算运费，最后再生成订单。

这个流程就像一串多米诺骨牌，如果中间任何一个环节出了问题，比如验证地址的网络突然卡了一下，整个任务就可能失败了。

尤其是在购物节这种订单量暴增的时候，系统很容易因为处理不过来而变得非常缓慢，甚至崩溃，用户体验会非常糟糕。

Dify推出的“队列式图引擎”就是来解决这个问题的。

它引入了一种叫做“任务队列”的机制，听起来有点专业，但原理很简单，就像我们在银行排队办业务一样。

当大量的订单请求涌进来时，系统不会乱作一团，而是把每个订单处理任务拆分成一个个小步骤，然后让它们在一个虚拟的队列里排好队。

系统会根据自己的处理能力，一个一个地、有条不紊地从队列里取出任务来执行。

这样做最大的好处就是稳定。

即使中间某个步骤失败了，比如地址验证不成功，它也不会影响到后面的其他任务。

系统会把这个失败的任务先放在一边，并做好标记，让开发者可以回过头来专门处理这个问题，甚至可以从失败的地方继续执行，而不需要整个流程重来一遍。

这大大增强了系统的可靠性。

同时，因为任务调度更加合理，系统的资源得到了充分利用，处理效率也大大提高。

官方数据显示，这个新引擎让应用的响应延迟降低了40%，而在电商订单处理这样的场景下，效率更是提升了三倍。

这意味着，系统在同样的时间内能处理比以前多三倍的订单，而且还不容易出错了。

第三个重大提升，是关于AI应用后台的“地基”——数据库架构。

一个功能完善的AI应用，背后往往需要不止一种数据库来支撑。

比如，用户的账号信息、交易记录这些格式规整的数据，通常存放在关系型数据库里；而为了让AI能理解语言文字的深层含义，还需要一种专门存放词语之间关联信息的向量数据库。

这就好`比一个大型超市，需要有存放蔬菜水果的冷藏库，也需要有存放零食饼干的常温库，管理起来很麻烦，成本也很高，而且不同仓库之间调配货物也很不方便。

Dify这次做了一个非常聪明的改变，它选择使用我们国家自主研发的一款非常优秀的数据库产品——TiDB，来统一管理所有数据。

TiDB的厉害之处在于，它像一个“全能型仓库”，既能很好地管理传统的关系型数据，又能高效地处理AI所需的向量数据。

这样一来，原来需要好几个不同系统才能完成的工作，现在一个系统就全搞定了。

最直接的好处就是大大简化了系统的复杂性，让维护变得更容易。

更重要的是，它极大地降低了成本。

根据Dify公布的数据，这次架构升级，让基础设施的成本降低了惊人的80%。

这对于很多预算有限的初创公司和中小企业来说，无疑是一个巨大的福音。

这不仅是一次技术上的优化，也体现了我们国产基础软件的强大实力。

最后，第四个提升是让AI拥有了“眼睛”，也就是多模态能力的增强。

在过去很长一段时间里，我们和AI的交流主要依赖于文字。

但我们生活的世界是丰富多彩的，充满了图片、图表和视频。

一个只会“读”不会“看”的AI，它的能力边界是显而易见的。

这次更新，Dify加强了对视觉语言模型的支持，比如能够兼容像阿里通义千问这样先进的模型。

这意味着，基于Dify开发的应用，不仅能听懂你说的话，还能看懂你发的图片。

一个非常典型的例子就是智能发票识别。

一张发票上，有公司名称、开票日期、项目列表、金额、公章等各种信息。

以前的技术可能只能把上面的文字识别出来，但分不清哪个是哪个。

现在，具备了多模态能力的AI可以直接“看”懂整张发票的布局，它能准确地知道哪个是抬头，哪个是总金额，中间的表格里又有哪些具体的消费项目。

这项能力带来的效果是惊人的：一家公司的财务处理效率因此提升了300%，也就是原来需要三个人干的活现在一个人就能轻松搞定，而且机器识别的错误率降到了0.5%以下，比人工核对还要准确。

这种看图识意的能力，让AI的应用场景一下子被拓宽了，从金融、医疗到日常生活的方方面面，都能发挥出更大的价值。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【毕业设计】SpringBoot+Vue+MySQL 失踪人员信息发布与管理系统平台源码+数据库+论文+部署文档

2048 AI社区

用户故事与用例：AI驱动的快速生成与管理

2048 AI社区

前后端分离企业内部小型网络管理系统系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

2048 AI社区

所有评论(0)

查看更多评论

云雅_KCL

@2301_76841790

已为社区贡献3条内容