分享并宣传一篇来自身边小伙伴们的近期成果,AFLOW:AUTOMATING AGENTIC WORKFLOW GENERATION - 自动生成代理工作流

需要跟大伙说明一下的是,我与这群年轻且富有激情有想法爱探索的小伙伴们结识于今年夏天阿里巴巴举办的全球数学竞赛AI挑战赛赛后的某次远程脑暴讨论会,并在会上与冠🥇、亚🥈、季🥉军个人/团体探讨分享了当下AI4S及RL×LLM的诸多想法,会后组建了产业学术群,群中每天各种想法,分享,互助满天飞,我想这种的卷才有价值也很有趣吧~不像..啧啧...

言归正传,随着近期OpenAI o1的发布以及test-time compute scaling law的袭来,对RL与LLM融合的思想范式被大家所认同和熟知,但我想当前我们对这一范式的探索也仅仅是冰山一角,不管是显式的对于复杂推理任务空间的持续探索策略与奖励反馈,还是对隐含在显式推理下模型对底层认知机理中的泛化与表征,包括推理框架在真实任务场景实践落地过程中工程与效率在平衡与优化上的诸多tricks的运用。

下面来看看这篇工作成果 - AFlow:

其中意义和价值仅从我的视角中为大家总结一下:

ps:大家可千万不要局限于此,建议阅读原文,相信有不一样的体会

0b990b1f186044518eed38870e451c73.jpg

 

Ⅰ. 形式化构建上,优雅的将work flow优化问题代码形式化为一个搜索过程,通过建立最大化评估函数G(W,T)优化目标,并将flow中的节点状态以及封装为边上的各种逻辑关系如条件、依赖等纳入到代码表示的搜索空间中来。

Ⅱ. 整体框架上,AFLOW采用MCTS来系统的探索发现最优工作流,并引入的新的操作符概念,预定义了常见代理操作(如Ensemble,Review&Revice),作为工作流的基石。

Ⅲ. 创新点上,提出LLMs驱动下的软混合概率选择机制用于节点探索与扩展,并选择多种主流模型用于工作流的执行与优化迭代。

Ⅵ. 最终效果上:

• 在编码、数学和QA方面击败人工设计的工作流程

• 在HumanEval上仅花费4.55%的成本就达到了 GPT-4o 级别

• 使用GPT-4o和AFLOW实现96.2%的HumanEval准确度

• 只需一个eval函数即可在 1.5 小时内生成自定义工作流程

9cbbb7bc0bd24f8997e48bd4d30d6f68.jpg

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐