Hello,大家好,我是二号小明。今天给大家分享一个我使用比较多而且很强大的 内容提取神器Doc Research(MS-Agent)

该工具是有ModelScope开源,可私有化部署,并支持图文等多模式内容生成以及样式排版,为自媒体内容创作以及学术报告研究提供强有力的支撑!

在这里插入图片描述

从去年的“百模大战”到如今的“千体竞争”,AI的发展速度很快,但真正落实到具体的应用场景时,我们有时还是无法能够快速使用或找到对应的工具。比如你想快速对一个产品报告、技术文档、学术报告等以图文形态进行总结提炼时,却总是很难找到较为满意的工具。

下面就是我本地部署通过对GPT5的System Card文档进行总结提炼效果:

QQ2025811-14101-HD 1

本文主要从几个方面介绍该工具的使用

一、Doc Research是什么?能解决什么问题?

1. Doc Research 🔬 简介
介绍Doc Research之前,我们先了解下 MS-Agent,因为Doc Research 属于MS-Agent 扩展的一个应用。
在这里插入图片描述

MS-Agent 是一个轻量级框架,旨在赋予代理自主探索能力。它提供了一个灵活且可扩展的架构,允许开发人员创建能够执行复杂任务的代理,例如代码生成、数据分析和具有 MCP(模型调用协议)支持的通用工具调用。
Doc Research是MS-Agent的基础上,结合大模型以及文档分析工具扩展出的应用实例。可针对用户提供的文档以及文档的URL,进行多模式的输出。
在这里插入图片描述

主要特点:

🔍 1. 文档深度研究 - 支持文档的深度分析和总结
📝 2. 多种输入类型 - 支持多文件上传和URLs输入
📊 3. 多模态报告 -支持Markdown格式的图文报告输出
🚀 4. 精准高效 -利用强大的LLM进行快速准确的研究,采用关键信息抽取技术进一步优化了token使用
⚙️ 5. 灵活部署 -支持本地运行和魔搭创空间运行模式,兼容CPU和GPU环境 💰 免费模型推理 - 魔搭ModelScope用户可免费调用LLM API推理

  1. 核心功能:针对文档可以图文的形式进行总结提炼、排版
    最近 ,GPT-5与Gemini3.0 等模型相继发布,在业界掀起了不小的波澜。大多数人都迫不及待地去体验——要么自己用提示词尝试,要么观看官方或其他博主的体验分享。然而,除了这些“表层”体验,我们其实更应该深入阅读这些模型的技术文档,去理解背后的原理与能力。
    在这里插入图片描述

不过,技术文档往往篇幅冗长,且混合了英文、图片、代码等多种内容,阅读和整理成本不低。如果有一款工具,能够将整份文档进行智能提炼,生成图文并茂、结构清晰的总结,那将极大提升我们的学习与研究效率。
在这里插入图片描述

针对模型发布的技术文档以及学术报告,Agent采用多模态的模型,结合MCP可以快速的进行图文内容总结和自动排版,可一目了然的快速掌握核心思想。
在这里插入图片描述
同时结合自定义提示词,可生成头条、小红书、微信公众号等多个自媒体的格式内容,减少自媒体创作的时间成本。
在这里插入图片描述
这样才能拥有对模型更深层次的了解,与别人拉开差。

二、为什么要使用它?

通过Doc Reseach 的Agent 模式可以快速的进行文档的提炼,区别于传统文本提炼的方式,该Agent主要的是多模态的模型+MCP工具,提炼出一个图文并茂的知识性文档,同时提供本地化部署保障数据安全,还免费用到超棒的模型接口,而且扩展性强,能帮你大大加快自媒体创作和科研的速度。
使用依据:

1. 数据安全很给力 支持本地部署,不管是CPU还是GPU,都能安心用,数据安全不用担心。
2. 接口免费又好用 靠ModelScope的模型,接口免费开放,效果棒到没话说。
3. 扩展能力超强 基于MS-Agent,能接入各种MCP服务工具,自动感知和执行,挺智能的
4. 提高效率真明显 无论是自媒体内容还是科研,都能帮你快很多,省时间又省力。

三、使用过程以及效果是怎样的?
Part.3
使用过程中主要是从私有化部署、文档分析功能以及模型推理配置等方面来具体体验下Doc Research的强大之处。
(一)私有化部署
安装依赖

conda create -n doc_research python=3.11
conda activate doc_research
pip install ms-agent[research]
  1. 配置环境
    免费模型推理服务 - 魔搭ModelScope用户每天可免费调用2000次的模型API推理服务,具体详情参考 ModelScope API-Inference
set OPENAI_API_KEY=ms-*******
set OPENAI_BASE_URL=https://api-inference.modelscope.cn/v1/
set OPENAI_MODEL_ID=Qwen/Qwen3-235B-A22B-Instruct-2507
  • OPENAI_API_KEY: (str), API key, 替换 xxx-xxx,或使用魔搭ModelScope提供的API key,参考 ModelScopeAccessToken
  • OPENAI_BASE_URL: (str), base url, 或使用ModelScope API-Inferencehttps://api-inference.modelscope.cn/v1/
  • OPENAI_MODEL_ID: (str), model id or name, 推荐使用Qwen/Qwen3-235B-A22B-Instruct-2507执行复杂研究任务
  1. 带参数启动
ms-agent app --doc_research --server_name 0.0.0.0 --server_port 7860 --share
  • 参数说明:
    server_name: (str), gradio 服务名/地址, 默认: 0.0.0.0
    server_port: (int), gradio 服务端口, 默认: 7860
    share: (store_true action), 是否对外分享,默认关闭.
  1. 使用说明:
  1. 用户提示:在文本框中输入您的研究目标或问题
  2. 文件上传:选择需要分析的文件(支持多选)
  3. URLs输入:输入相关的网页链接,每行一个URL
  4. 开始研究:点击运行按钮开始执行工作流
  5. 查看结果:在右侧区域查看执行结果和研究报告(可全屏)

(二)报告分析

  1. 用户输入。输入方式有两种:直接上传文件和URL,并同时支持多个文本上传。
    在这里插入图片描述

  2. 输入用户提示词:
    在这里插入图片描述

  3. 开始深度探索。
    在这里插入图片描述

  4. 输出结果,同时也会将原始文档中所有的图片识别出来并单独存储。

目录结构
temp_workspace/user_xxx_1753706367955/
├── task_20250728_203927_cc449ba9/
└── task_20231201_143156_e5f6g7h8/   # 单次输入分析
   ├── resources/  # 文档的图片资源
   └── report.md  # 输出图文结合的文档报告

在这里插入图片描述
在这里插入图片描述

  1. 本地磁盘映射。对应的文件存储位置,我们可以根据项目根目录找到【tem_workspace】目录。
    在这里插入图片描述
    该文档所有的图片资源。
    在这里插入图片描述

  2. 快速发布。将生成MD格式的Report 进行复制粘贴到自媒体平台。比如:CSDN
    在这里插入图片描述

通过文档多模态的分析与输出,又结合提示词的排版(MarkDown格式),不仅可以使的文档分析者提高文档的阅读的效率,同时也大大提高自媒体内容创作的速度。一键复制粘贴,可以实现样式的完美贴合。

(三)模型的推理配置

我们当前使用的是Qwen/Qwen3-235B-A22B-Instruct-2507 执行复杂的推理研究任务,你也可以使用OPENAI最新发布的模型进行测试。针对ModelScope平台提供的模型API,都可以进行每天2000免费调用次数,对于开发者还是很不错的。
在这里插入图片描述

如图所示,整体来说生成的质量还是蛮高的。不管是从图表、文字、格式排版以及图片搭配上来看,整体效果不错。
在这里插入图片描述
在这里插入图片描述

接下来,我会以 MS-Agent 作为底座,继续探索更多扩展应用。

对于自媒体博主来说,获取第一手资料至关重要,因此我计划引入一个能快速获取新闻的工具——Newspaper

它可以高效抓取主流媒体的新闻内容,并与现有的 Doc-Research 模块相结合,解锁更多实用的扩展玩法。

请先关注,精彩内容即将发布,敬请期待!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐