在这里插入图片描述

当图像修复、去噪、去雨、上色、超分等任务越来越复杂时,传统“一个模型对应一个脚本”的模式既难以组合也不够智能, 而通用的图像编辑模型目前在图像增强任务上也不尽人意。Enhance Agent 提供了一个更自然、更强大的方式:用一句话告诉系统你想要的效果,让多智能体自动理解意图、规划步骤并串联工具链,有序完成整套图像增强流程。
在这里插入图片描述


为什么是 Enhance Agent

  • 用自然语言说需求:例如“先去雨再上色再超分”,系统会自己拆解成工具序列并逐步执行。
  • 一套统一入口:对话式 UI 或命令行,统一接入多种 SOTA 图像处理能力。
  • 易扩展:新增一个工具、接入一个模型、调整一个 Prompt,就能扩展系统能力。

能力亮点

  • 支持自然语言指令、复合指令与多轮增强
  • 内置多类“原子能力”与进阶能力:
    • 灰度化、顺/逆时针旋转 90 度、图像信息获取
    • DDColor 黑白图像上色
    • Restormer 去雨、去运动模糊
    • KAIR:SCUNet 去噪、BSRGAN 超分
  • 多模态协同:意图理解由 LLM 驱动,工具执行由图像模型完成
  • Gradio 对话式 UI + CLI 双入口
    在这里插入图片描述

架构总览

Enhance Agent 采用“意图理解 + 工具编排 + 原子工具”的多智能体协作架构,基于 FastMCP 实现服务/进程级解耦:

  • 意图理解服务器(intent_analyzer_server.py

    • 职责:理解用户自然语言指令,输出要调用的“工具序列”
    • 模型:火山引擎 doubao-seed-1-6-lite-251015
    • Prompt:在 prompt.py 中定义了工具清单与判别准则(例如“想更清晰优先超分;明确‘运动模糊’才启用去运动模糊”)
  • 图像处理工具服务器(image_processor_server.py

    • 职责:承载所有原子能力与进阶模型能力
    • 能力:
      • 基础:convert_to_grayscalerotate_clockwise_90rotate_counterclockwise_90get_image_info
      • 上色:colorize_ddcolor(DDColor)
      • 去雨/去运动模糊:derain_restormerdeblur_motion_restormer(Restormer)
      • 去噪/超分:denoise_scunet(SCUNet)、super_resolution_bsrgan(BSRGAN)
  • 协调器(image_processing_coordinator.py

    • 职责:调用意图理解 → 解析工具序列 → 逐步调用图像处理工具 → 返回最终结果
    • 对外统一接口:process_image_with_instruction
    • 异常与兜底:对 LLM 返回 JSON 做清洗/校验;对每一步工具执行提供错误返回
  • UI 与 CLI

    • Gradio UI(chat_ui.py):对话式交互、上传图片、连续指令、多轮显示结果
    • 命令行(cli_main.py):便捷集成到任务脚本/批处理流程

二次开发与扩展

  • 新增工具:在 image_processor_server.py 中添加 @mcp.tool() 函数,内部封装任意图像模型/算法
  • 更新意图理解:在 prompt.py 扩展工具清单与选择规则(保持“自然语言 → 工具序列”的清晰映射)
  • 更换/并行模型:将已有工具替换为你的模型,或新增多套能力以应对不同场景(如 x2/x4 不同尺度)

结语:欢迎试用与共建

Enhance Agent 让“自然语言 → 图像增强流水线”成为现实。无论你是想快速处理一批图像,还是为应用接入智能后处理链,都能在此基础上快速落地。欢迎试用、提 Issue、提 PR,一起把它打磨成更强大的“图像增强助手”。

  • 推荐从 chat_ui.py 开始体验对话式工作流
  • 如需集成到你的系统,可直接对接协调器工具 process_image_with_instruction

— Enjoy enhancing!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐