Skywork Deep Research Agent v2

Skywork Deep Research Agent v2 的发布标志着多模态深度研究进入了一个新阶段。这款产品通过多模态爬取技术、异步并行 Multi-Agent 架构、长距离信息收集和多模态结果呈现等技术创新，彻底改变了传统研究工具仅依赖文本分析的局限性(2)。在性能方面，Skywork Deep Research 在 BrowseComp 和 GAIA 等多项基准测试中表现出色，特别是在开

赫尔·普莱蒂科萨·帕塔

372人浏览 · 2025-08-20 05:30:00

赫尔·普莱蒂科萨·帕塔 · 2025-08-20 05:30:00 发布

多模态深度调研：Skywork Deep Research Agent v2 全面解析

一、引言：多模态智能引领深度研究新时代

在当今信息爆炸的时代，如何高效获取、分析和利用多模态信息已成为企业决策与技术创新的关键挑战。2025 年 8 月 14 日，昆仑万维正式发布了 Skywork Deep Research Agent v2，这是天工超级智能体 (Skywork Super Agents) 的核心引擎，标志着多模态深度调研技术进入了一个新阶段(1)。这款产品的发布不仅代表着昆仑万维在 AI 领域的又一次重大突破，也为全球企业管理者和技术专业人士提供了一种全新的信息处理工具。

Skywork Deep Research Agent 自 5 月 22 日上线以来，已经通过 skywork.ai 平台为用户生成了大量信息密度极高的优质文档、PPT、表格及其他交付物，彻底改变了大模型在 AI Office 领域的角色定位(1)。而此次 v2 版本的发布，更是引入了革命性的 "多模态深度调研"Agent，一举打破了传统产品仅局限于文本检索分析的框架，实现了多模态检索、理解与生成的完美融合(2)。

本文将深入剖析 Skywork Deep Research Agent v2 的技术架构、应用场景和发展前景，并与谷歌的 Gemini 2.5 deep research 进行全面对比分析，为技术专业人士与企业管理者提供一份全面的多模态深度调研工具指南。

二、Skywork Deep Research Agent v2 技术架构与核心突破

2.1 多模态深度调研的技术基础

Skywork Deep Research Agent v2 的核心技术创新在于其多模态深度调研能力，这一能力的实现依赖于四个关键技术突破：多模态爬取技术 MM-Crawler、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构，以及多模态结果呈现能力(2)。这些技术创新的整合，使得 Skywork v2 能够一次获取信息完整、节奏顺畅、视觉友好的深度研究报告，彻底解决了传统研究工具仅依赖文本分析的局限性(3)。

多模态爬取技术 MM-Crawler是 Skywork v2 的首要技术突破。传统的 Deep Research Agent 产品主要采用搜索并抓取网页文字信息的方式实现，而互联网上超过一半的关键信息来自图文混排，如财报中的曲线、论文里的实验图、社媒上的对比照、方案里的流程图等(1)。这些多模态信息一旦被忽略，将直接影响 Agent 产出的交付物质量。昆仑万维的 MM-Crawler 技术能够精准过滤掉 65% 的视觉噪音，直奔核心信息源，为后续分析提供完整的多模态数据基础(4)。

2.2 异步并行 Multi-Agent 架构

Skywork v2 的第二个关键技术突破是其异步并行 Multi-Agent 多模态理解架构。这一架构允许 Skywork 同时运行多个智能体，每个智能体专注于不同类型的信息处理任务(3)。例如，当一个智能体在处理文本信息时，另一个智能体可以同时进行图像分析，大大提高了信息处理效率(4)。

这种架构的优势在于，它能够实现 “读文字 + 看图片” 的并行处理，让研究人员等用户一次拿到信息完整、节奏顺畅、视觉友好的深度报告(5)。在实际应用中，这意味着用户下达指令后，Skywork 的 MM-Crawler 多模态爬虫就像一个既懂语言又懂艺术的侦察兵，能精准过滤掉 65% 的视觉噪音，直奔财报中的核心图表；与此同时，多模态深度浏览器已经潜入了各大社交平台，不仅看懂了图文，甚至连评论区的情绪倾向都能分析得明明白白(4)。

2.3 长距离多模态信息收集机制

Skywork v2 的第三个技术突破是长距离多模态信息收集机制。这一机制使 Skywork 能够在复杂的网络环境中，高效地收集和整合分散在不同来源的多模态信息(2)。与传统的信息收集工具相比，Skywork v2 能够在保持信息完整性的同时，显著提高信息收集的广度和深度。

这一技术突破的核心在于，它能够识别和理解跨多个页面和不同媒体类型的信息之间的关联性，从而构建出更加全面和准确的信息图谱(3)。例如，在进行市场调研时，Skywork v2 不仅能够收集相关的文本信息，还能够识别和分析相关的图片、图表、视频等多模态信息，从而为用户提供更加丰富和深入的分析结果。

2.4 多模态结果呈现能力

Skywork v2 的第四个关键技术突破是多模态结果呈现能力。这一能力使 Skywork 能够将复杂的多模态信息整合成结构清晰、易于理解的报告形式(2)。与传统的纯文本报告相比，Skywork v2 生成的报告能够在合适的文档位置插入高质量的图片，极大地提升了信息传达的效率，降低了读者的理解成本(3)。

此外，Skywork v2 还能够将图片信息转化为文字或新的图表，提供更加丰富的分析视角(3)。这种多模态结果呈现能力不仅提高了报告的可读性和可理解性，还能够帮助用户更快地把握关键信息，做出更加明智的决策。

2.5 性能提升机制

为了进一步加强 Agent 基础模型的复杂任务执行和信息检索、整理、总结能力，Skywork Deep Research Agent v2 引入了多种提升机制，包括高质量数据合成及训练、端到端强化学习、高效的并行推理，以及多智能体自我学习演进系统(5)。这些机制的结合使得新版本的 Skywork Deep Research 在多项 Agent 任务评测上超越现有模型，达到行业 SOTA (State-of-the-Art) 水平(5)。

在并行思考模式下，Skywork Deep Research 的正确率会随着思考时间的增加而持续攀升，这充分展现了自研系统架构的潜力与扩展性(5)。特别是在全球权威的搜索任务评测集 BrowseComp 上，Skywork Deep Research 开启 “并行思考” 模式后，正确率直接飙升至 38.7%，刷新了行业纪录(4)。这一成绩远高于其他竞争对手，包括谷歌的 Gemini-2.5-Pro (26.4%) 和 OpenAI 的 Deep Research (23.0%)(4)。

三、Skywork Browser Agent：重塑社交媒体内容分析

3.1 多模态深度浏览器智能体的技术创新

Skywork Deep Research Agent v2 推出了 “多模态深度浏览器智能体”(Skywork Browser Agent)，旨在重塑社交媒体内容分析与数据洞察(5)。为实现传统浏览器所不具备的低延迟、高回复率、任务完成度高、决策灵活等功能，昆仑万维多模态深度浏览器智能体进行了多项关键自研技术优化(5)。

这些技术优化包括：升级 DOM + 视觉推理方案、主流平台专项适配、并行搜索 (Parallel Search)、多动作规划机制 (Multi-Action)、智能筛选、人机无缝接管与隐私保护和安全承诺等(5)。通过这些创新，Skywork Browser Agent 能够模拟人类浏览与交互方式，革新传统数据采集与分析模式(5)。

3.2 多模态深度浏览器的功能特性

当前，多模态深度浏览器智能体 (Skywork Browser Agent) 能够精准高效地完成智能搜索、多模态信息分析与社区内容洞察，有效解决传统浏览器智能体的多项痛点(5)。具体来说，它具有以下功能特性：

智能搜索：能够理解用户的复杂查询意图，并返回最相关的多模态信息(2)。
多模态信息分析：不仅能分析文本内容，还能理解图像、视频等非文本信息，提供更加全面的分析结果(3)。
社区内容洞察：能够识别和分析社交媒体上的用户情绪、话题趋势、影响力分布等，为企业提供深入的市场洞察(5)。
并行搜索：能够同时执行多个搜索任务，大大提高了信息收集效率(2)。
多动作规划：能够根据用户的需求和当前的信息状态，动态规划最优的搜索和分析路径(5)。
智能筛选：能够自动过滤掉无关或低质量的信息，提高信息处理效率和质量(3)。
人机无缝接管：允许用户在必要时手动干预 Agent 的工作，实现人机协作的最佳效果(5)。
隐私保护和安全承诺：严格遵守数据保护法规，确保用户数据的安全和隐私(5)。

3.3 多模态信息处理能力的实际应用

多模态深度浏览器智能体的实际应用场景非常广泛。例如，当用户需要进行竞争对手分析时，Skywork Browser Agent 能够同时搜索多个社交媒体平台、新闻网站和行业报告，收集并分析相关的文本、图片、视频等信息，最终生成一份全面的竞争分析报告(2)。

在另一个案例中，某消费品公司想要了解其新产品在市场上的反响，Skywork Browser Agent 能够在短时间内收集社交媒体上的用户评价、相关图片和视频，分析用户情绪和使用体验，为企业提供及时的市场反馈(3)。

此外，Skywork Browser Agent 还能够帮助企业进行品牌监测、市场趋势分析、消费者行为研究等，为企业决策提供全面、深入的数据支持(5)。

四、性能评测：Skywork Deep Research 的行业领先地位

4.1 BrowseComp 评测结果分析

在全球权威的搜索任务评测集 BrowseComp 上，Skywork Deep Research 展现出了卓越的性能。在常规模式下，其性能已超越大多数同类产品，正确率达到 27.8%(1)。而一旦开启自主研发的 “并行思考”(Parallel Thinking) 模式，正确率更是跃升至 38.7%，刷新了行业 SOTA 纪录(1)。

这一成绩远高于其他主要竞争对手，包括谷歌的 Gemini-2.5-Pro (26.4%)、OpenAI 的 Deep Research (23.0%) 和 Claude-4-Opus (28.3%) 等(4)。这表明 Skywork Deep Research 在处理复杂搜索任务和多模态信息方面具有明显的优势。

4.2 GAIA 基准测试表现

除了 BrowseComp 评测外，Skywork Deep Research 在 GAIA 基准测试中也表现出色。GAIA 榜单在 AI 智能体领域类似于奥运会在体育界的地位，是衡量 AI 智能体综合能力的重要指标(7)。据报道，Skywork 的 Deep Research Agent 框架在 GAIA 基准测试中得分高达 82.42，超越了 OpenAI Deep Research 和 Manus，位居全球第一。

这一成绩表明 Skywork Deep Research 在综合能力方面处于行业领先地位，能够胜任从简单问答到复杂研究的各种任务。在 OpenAI 推出的 Agent 评测任务 Simple QA 上，Skywork 也取得了 94.5 分的好成绩，超越了当前的 SOTA(7)。

4.3 并行思考模式的技术优势

Skywork Deep Research 的 “并行思考” 模式是其性能超越竞争对手的关键因素之一。这一模式允许 Agent 同时探索多个可能的推理路径，并在过程中不断评估和优化这些路径(4)。这种方法与传统的顺序思考模式相比，能够更全面地覆盖问题空间，提高解决复杂问题的能力。

在 BrowseComp 评测中，Skywork Deep Research 的正确率会随着思考时间的增加而持续攀升，这充分展现了自研系统架构的潜力与扩展性(5)。相比之下，其他 Agent 的正确率在达到一定水平后往往会趋于稳定，甚至下降。

4.4 长周期任务与 Vision-Language-Action (VLA) 任务的表现

Skywork Deep Research 在长周期任务 (Long-horizon Task) 与 Vision-Language-Action (VLA) 任务中也展现出了巨大潜力(5)。传统的 Agent 系统在处理需要长时间执行或涉及视觉理解和动作规划的任务时，往往表现不佳。而 Skywork 通过其多模态理解架构和并行处理能力，能够更有效地完成这些复杂任务。

例如，在一个需要分析多个网页、图片和视频，并生成详细报告的长周期任务中，Skywork Deep Research 能够在保持高准确率的同时，显著缩短处理时间(2)。在另一个涉及视觉理解和动作规划的任务中，Skywork 能够准确识别图像中的关键信息，并根据这些信息采取适当的行动，如提取数据、生成图表或回答复杂问题(3)。

五、与谷歌 Gemini 2.5 Deep Research 的对比分析

5.1 技术架构对比

Skywork Deep Research Agent v2采用了多模态爬取技术 MM-Crawler、长距离多模态信息收集机制、异步并行 Multi-Agent 多模态理解架构，以及多模态结果呈现能力(2)。其核心优势在于对多模态信息的全面处理能力和并行思考机制，能够同时处理文本、图像、音频等多种信息源(4)。

谷歌 Gemini 2.5 Deep Research则是建立在稀疏专家混合 (Sparse Mixture-of-Experts) Transformer 架构之上，具有原生的多模态支持，能够处理文本、图像和音频输入(8)。该模型能够处理多达 100 万个输入令牌，并生成多达 192,000 个输出令牌，具有较长的上下文窗口(8)。

Gemini 2.5 Pro 是一个多模态 “思考” 模型，能够通过步骤推理后再响应，使用链式思考提示等技术，同时保持原生多模态性，并具有 100 万令牌的上下文窗口。Gemini 2.5 Pro 在需要高级推理的一系列基准测试中处于领先地位，在数学和科学基准测试如 GP QA 和 AIME 2025 中表现出色(16)。

5.2 性能指标对比

在性能方面，两款产品各有所长：

Skywork Deep Research在 BrowseComp 搜索任务评测中表现突出，开启并行思考模式后正确率达到 38.7%，远高于 Gemini 2.5 Pro 的 26.4%(4)。
Gemini 2.5 Pro在数学和科学基准测试中表现优异，在 AIME 2024 中得分 92.0%，AIME 2025 中得分 86.7%(15)。在 Humanity’s Last Exam 基准测试中，Gemini 2.5 Deep Think 得分 34.8%，超过了 OpenAI O3 和 Grok 4(29)。
在 GAIA 基准测试中，Skywork Deep Research 得分为 82.42，位居全球第一，超过了 OpenAI Deep Research 和 Manus。
在 Live Code Bench 测试中，Gemini 2.5 Deep Think 的表现优于 OpenAI 和 X.AI 的前沿 AI 模型(29)。
在 Humanity’s Last Exam 基准测试中，Gemini 2.5 Deep Think 得分最高，达到 34.8%，而 Skywork Deep Research 未参与此测试的公开排名(29)。

5.3 应用场景对比

两款产品在应用场景上也有一定差异：

Skywork Deep Research Agent v2主要定位于 AI Office 领域，专注于办公场景的深度优化(7)。它能够一站式生成文档、PPT、表格、网页、播客和音视频多模态内容(7)。其多模态深度浏览器智能体特别适合进行社交媒体内容分析和市场调研，能够有效解决传统浏览器智能体的多项痛点(5)。

谷歌 Gemini 2.5 Deep Research则更侧重于提供全面的研究支持，特别是在需要高级推理和复杂数据分析的场景中表现出色(13)。谷歌表示，在测试中，评分者更喜欢由 Gemini 2.5 Pro 支持的 Deep Research 生成的报告，而不是其他领先的 Deep Research 提供商，比例超过 2:1(13)。

Gemini Deep Research 特别适合需要深入分析和专业知识的研究任务，如科学研究、技术分析和复杂问题解决等(22)。它能够从大量来源中选择相关数据，并生成结构良好的报告，包括执行摘要、引言、范围定义和详细分析(23)。

5.4 用户体验对比

在用户体验方面，两款产品也有各自的特点：

Skywork Deep Research采用了对话式的交互方式，将对话式的回复变成了选择式的澄清卡片，用户可以通过打勾的方式进行选择，大大提高了交互效率(7)。Skywork 会生成待办清单，列出计划执行步骤，让用户清楚了解处理过程(7)。

Skywork 的所有输出内容都支持可编辑，用户可以在生成后对文字内容进行调整，最后支持 PPT、PDF 以及 HTML 导出(7)。此外，用户在跳转其他工作时可以将任务置于后台，等完成后会收到通知，提供了类似老板分配任务的体验(7)。

谷歌 Gemini 2.5 Deep Research则更注重自动化和专业性，能够生成结构严谨、内容全面的研究报告(22)。谷歌强调，Gemini Deep Research 是用户的个人 AI 研究助理，能够在研究过程的每一步提供更好的支持(22)。

然而，与 Skywork 不同，Gemini 采用了免费增值模式。基本功能是免费的，但高级工具如实验性的 2.5 Pro 模型、Deep Research 和大文档上传等需要 Gemini Advanced 订阅。相比之下，Skywork 无需邀请码，海内外用户可以直接注册使用(7)。

六、应用场景：Skywork Deep Research 的实际应用

6.1 AI 办公场景的深度优化

Skywork Deep Research Agent v2 特别适合 AI 办公场景，能够显著提高办公效率和质量。其核心应用包括：

文档生成：Skywork 能够根据用户的需求生成各种类型的文档，如市场调研报告、行业分析、产品白皮书等。用户只需提供简单的指令，Skywork 就会自动收集相关信息，生成结构清晰、内容详实的文档(7)。
PPT 制作：Skywork 能够生成专业级别的 PPT，包括大纲和章节标题设置。用户可以指定 PPT 的主题和要求，Skywork 会自动收集相关信息，设计合适的布局，并插入相关的图片和图表(7)。
表格处理：Skywork 能够快速收集和整理数据，生成各种类型的表格。例如，用户可以要求 Skywork 整理某个公司的历史产品发布信息，包括发布日期、地点、产品型号、价格等，Skywork 会在短时间内完成收集和整理工作(7)。
多模态内容生成：Skywork 不仅能生成文本内容，还能生成图片、音频和视频等多模态内容。例如，用户可以要求 Skywork 生成一个小猫旅行的 vlog，Skywork 会先生成对应的图片，然后再把图片转换成视频(7)。

6.2 市场调研与竞争分析

Skywork Deep Research 在市场调研和竞争分析领域具有广泛的应用前景：

竞争对手分析：企业可以使用 Skywork 收集竞争对手的产品信息、市场策略、用户评价等，生成全面的竞争分析报告。Skywork 的多模态深度浏览器智能体能够深入分析社交媒体和行业网站上的相关信息，为企业提供宝贵的市场洞察(2)。
消费者行为研究：通过分析社交媒体上的用户讨论、评论和分享，Skywork 能够帮助企业了解消费者的需求、偏好和使用体验。这种基于真实用户数据的分析能够为产品开发和营销策略提供有力支持(3)。
市场趋势预测：Skywork 能够分析大量的市场数据、新闻报道和社交媒体内容，识别市场趋势和新兴机会。例如，通过分析技术博客和行业报告，Skywork 可以预测新兴技术的发展方向和应用前景(5)。

6.3 产品研发与创新支持

在产品研发和创新方面，Skywork Deep Research 也能发挥重要作用：

技术趋势分析：企业可以使用 Skywork 收集和分析最新的技术发展趋势、专利信息和学术研究成果，为产品研发提供方向指引。Skywork 的多模态分析能力能够处理技术论文、专利文档和行业报告中的复杂信息，提炼出关键趋势和创新点(2)。
用户需求挖掘：通过分析用户在社交媒体和产品评论中的反馈，Skywork 能够帮助企业识别未满足的需求和痛点，为产品创新提供灵感。例如，某家电企业可以使用 Skywork 分析用户对洗衣机的评论，发现用户对洗烘功能和噪音控制的关注，从而指导新产品的开发(7)。
创意生成与评估：Skywork 能够根据用户提供的主题和要求，生成多种创意方案，并进行初步评估。例如，市场营销团队可以使用 Skywork 生成多个广告创意，然后通过分析社交媒体上的潜在反应，选择最具潜力的方案(3)。

6.4 内容创作与知识管理

Skywork Deep Research 在内容创作和知识管理方面也有广泛的应用：

教育内容开发：教育机构和企业培训部门可以使用 Skywork 生成各种教育内容，如课程大纲、教学案例和学习资料。Skywork 能够根据学生的年龄和知识水平，生成适合的内容呈现方式，如为老年人设计的 AI 科普 PPT(7)。
知识库构建：企业可以使用 Skywork 收集和整理内部知识和外部信息，构建全面的知识库。Skywork 能够自动分类和索引信息，生成知识图谱，帮助员工快速找到所需信息(2)。
内容本地化：对于跨国企业，Skywork 能够帮助将内容从一种语言翻译成另一种语言，并根据目标市场的文化特点进行调整。例如，某国际品牌可以使用 Skywork 将其营销内容本地化，以适应当地市场的需求(3)。

七、发展前景：多模态深度研究的未来趋势

7.1 多模态智能体技术的演进方向

随着技术的不断发展，多模态智能体技术将朝着以下几个方向演进：

更深入的多模态融合：未来的多模态智能体将能够更深入地融合不同模态的信息，实现更全面的理解和更自然的交互。昆仑万维已经在探索下一代多智能体系统，将深度挖掘不同 Agent 模型的差异化优势，并将其模型能力与工具能力有机融合，构建协同多智能体框架(1)。
更强的长周期任务处理能力：未来的多模态智能体将能够处理更长周期、更复杂的任务，如持续数月的市场调研或产品开发支持。Skywork Deep Research 在并行思考模式下的正确率会随着思考时间的增加而持续攀升，表明其架构具有良好的扩展性(5)。
更智能的人机协作：未来的多模态智能体将更好地支持人机协作，实现无缝的人机接管和智能的任务分配。Skywork 已经在多模态深度浏览器智能体中实现了人机无缝接管功能，为未来的人机协作奠定了基础(5)。

7.2 行业应用的拓展与深化

多模态深度研究技术在各个行业的应用将不断拓展和深化：

金融领域：多模态深度研究将在金融分析、风险评估和投资决策中发挥越来越重要的作用。例如，智能体可以分析财务报告中的文本和图表，结合市场新闻和社交媒体情绪，提供更全面的投资建议(2)。
医疗健康：在医疗领域，多模态智能体可以帮助医生分析医学影像、病历和研究论文，辅助诊断和治疗决策。未来，智能体甚至可能参与临床试验设计和药物研发(3)。
智能制造：在制造业中，多模态智能体可以帮助企业分析生产数据、设备状态和质量检测结果，优化生产流程和产品质量。智能体还可以通过分析用户反馈和市场趋势，为产品创新提供方向(5)。
智慧城市：在智慧城市建设中，多模态智能体可以分析城市交通数据、能源消耗和环境监测信息，为城市规划和管理提供决策支持。例如，智能体可以通过分析交通流量和公共交通使用情况，优化城市交通网络(2)。

7.3 Skywork 生态系统的发展规划

昆仑万维正在积极构建 Skywork 生态系统，为用户提供更全面的 AI 服务：

多智能体协同框架：据昆仑万维介绍，为了进一步解锁 Agent 的能力边界，Skywork 下一代多智能体系统将深度挖掘不同 Agent 模型的差异化优势，并将其模型能力与工具能力有机融合，构建协同多智能体框架(1)。该系统不仅能够将多个 Agent 组织成高效协作团队，还可在线实时利用 Agent 的代码能力动态创建和管理 MCP 工具，从而显著提升任务处理能力与环境适应性(1)。
商业应用落地：昆仑万维作为中国领先的人工智能科技公司，近年来在 AI 大模型、AI 搜索、AI 短剧、AI 音乐、AI 游戏、AI 社交等多个领域取得了显著进展，构建了全面的 AI 业务布局(1)。在 AI 大模型方面，公司通过自研技术持续迭代 “天工” 系列大模型，在复杂任务处理、多模态等方面实现多项突破，整体 AI 技术实力稳居行业第一梯队(1)。
全球化布局：昆仑万维全球化战略成效显著，实现海外业务收入 16.7 亿元，同比增长 56.1%，海外业务收入占比提升至 94.4%，国际化布局进一步深化(1)。Skywork Deep Research 作为昆仑万维的旗舰产品之一，将在全球市场发挥重要作用。

八、结语：多模态深度研究的价值与未来

Skywork Deep Research Agent v2 的发布标志着多模态深度研究进入了一个新阶段。这款产品通过多模态爬取技术、异步并行 Multi-Agent 架构、长距离信息收集和多模态结果呈现等技术创新，彻底改变了传统研究工具仅依赖文本分析的局限性(2)。

在性能方面，Skywork Deep Research 在 BrowseComp 和 GAIA 等多项基准测试中表现出色，特别是在开启 “并行思考” 模式后，正确率达到 38.7%，刷新了行业纪录(1)。这一成绩表明 Skywork 在处理复杂搜索任务和多模态信息方面具有明显的优势。

与谷歌的 Gemini 2.5 Deep Research 相比，Skywork 在多模态信息处理和办公场景优化方面具有特色，而 Gemini 则在数学和科学推理方面表现突出(8)。两款产品各有所长，用户可以根据自身需求选择适合的工具。

多模态深度研究技术的发展将为企业决策和技术创新提供强大支持。未来，随着技术的不断进步和应用场景的不断拓展，多模态智能体将成为企业数字化转型和创新发展的重要工具(5)。

对于技术专业人士和企业管理者而言，掌握多模态深度研究技术的应用方法和发展趋势，将有助于在 AI 时代保持竞争优势，实现更高效、更智能的决策和创新(7)。正如 Skywork 的实践所证明的，AI 的终局不是替代人类，而是通过人机协作产生更震撼的效果(7)。未来已来，让我们一起做 AI 时代的参与者。

**参考资料 **

[1] 昆仑万维举办AI技术发布周展示多模态AI领域突破性成果_证券时报e公司 http://m.toutiao.com/group/7538401868490310159/?upstream_biz=doubao

[2] 昆仑万维Skywork v2升级:多模态深度调研Agent引领AI新体验-业界动态-ITBear科技资讯 http://m.itbear.com.cn/html/2025-08/918915.html

[3] 昆仑万维SkyWorkAI重磅升级:多模态智能引领深度研究新潮流_Agent_信息_能力 https://m.sohu.com/a/923974758_121956424/

[4] 天工V2发布:AI终于撕掉了“纯文本”的标签_墨风如雪 http://m.toutiao.com/group/7538452547384656447/?upstream_biz=doubao

[5] 昆仑万维正式发布Skywork Deep Research Agent v2_证券日报 http://m.toutiao.com/group/7538397057178944034/?upstream_biz=doubao

[6] 昆仑万维发布Agent V2引擎-抖音 https://www.iesdouyin.com/share/video/7538420951190752572/?did=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&from_aid=1128&from_ssr=1&iid=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&mid=7538420936318077722&region=&scene_from=dy_open_search_video&share_sign=15vOn3ddFcRFtWIswMSYL5Yc3q0WORj0Ed7HnMdDkM0-&share_version=280700&titleType=title&ts=1755227119&u_code=0&video_share_track_ver=&with_sec_did=1

[7] 实测首款办公Agent——天工超级智能体skywork！ Office三件套被卷死！-抖音 https://www.iesdouyin.com/share/video/7523076185534893338/?did=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&from_aid=1128&from_ssr=1&iid=MS4wLjABAAAANwkJuWIRFOzg5uCpDRpMj4OX-QryoDgn-yYlXQnRwQQ&mid=7523076122049858339&region=&scene_from=dy_open_search_video&share_sign=XjwgQJx.CpBpaP01PdpqAOgALavHPrFIODR94qlkR7g-&share_version=280700&titleType=title&ts=1755227119&u_code=0&video_share_track_ver=&with_sec_did=1

[8] Gemini 2.5 Deep Think explained: Everything you need to know https://www.techtarget.com/whatis/feature/Gemini-25-Deep-Think-explained

[9] Gemini https://deepmind.google/models/gemini/

[10] The latest updates for Deep Research in Gemini https://devicebase.net/en/google-gemini/updates/the-latest-updates-for-deep-research-in-gemini/6u3

[11] Gemini https://deepmind.google/technologies/gemini/flash/

[12] I tested DeepSeek vs Gemini 2.5 with 9 prompts — here’s the winner https://www.tomsguide.com/ai/deepseek-blew-away-all-other-ai-chatbots-in-our-testing-but-googles-gemini-2-5-could-change-the-game-9-prompts-to-find-out

[13] Deep Research is now available on Gemini 2.5 Pro Experimental. https://blog.google/products/gemini/deep-research-gemini-2-5-pro-experimental/

[14] 5 Best Large Language Models (LLMs) in July 2025 https://www.unite.ai/best-large-language-models-llms/

[15] Google releases Gemini 2.5 as model competition continues https://www.contentgrip.com/google-releases-gemini-2-5/

[16] Gemini 2.5: Our most intelligent AI model https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

[17] Google unveils Gemini 2.5 — claims AI breakthrough with enhanced reasoning and multimodal power https://www.tomsguide.com/ai/google-unveils-gemini-2-5-claims-ai-breakthrough-with-enhanced-reasoning-and-multimodal-power

[18] Kunlun Tech Launches Skywork Deep Research Agent v2 https://www.aibase.com/news/20505

[19] Skywork Deep Research Agent Major Upgrade: Delivering Enhanced Multimodality, Superior Output Quality, and Optimized Efficiency https://kessler-prod.reta52d8.eas.morningstar.com/news/pr-newswire/20250814cn51585/skywork-deep-research-agent-major-upgrade-delivering-enhanced-multimodality-superior-output-quality-and-optimized-efficiency

[20] Gemini’s Deep Research just changed the AI game — here’s what you can do with it (and how it’s crushing the competition) https://www.tomsguide.com/ai/google-just-gave-gemini-a-major-research-upgrade-and-its-already-beating-the-competition

[21] Deep Research powered by Gemini 2.5 Pro (experimental) now available https://9to5google.com/2025/04/08/gemini-2-5-pro-deep-research/

[22] Deep Research is now available on Gemini 2.5 Pro Experimental. https://blog.google/products/gemini/deep-research-gemini-2-5-pro-experimental/?_bhlid=ec3179dc9e714542242a745ce12ffd90af286869

[23] Google Gemini 2.5 Deep Research Agents: A Comprehensive Guide https://scholars.truescho.com/google-gemini-2-5/

[24] Deep Research is now available on Gemini 2.5 Pro Experimental https://news.ycombinator.com/item?id=43627354

[25] I tried using the Deep Research feature with Google’s Gemini 2.5 Pro model, and now I wonder if an AI can overthink https://www.techradar.com/computing/artificial-intelligence/i-tried-using-the-deep-research-feature-with-googles-gemini-2-5-pro-model-and-now-i-wonder-if-an-ai-can-overthink

[26] Gemini https://deepmind.google/technologies/gemini/

[27] Here is Gemini 2.5 Deep Think: Google Ai from “Deep thought” https://news.italy24.press/article/here-is-gemini-2-5-deep-think-google-ai-from-deep-thought.html

[28] Skywork Deep Research Agent Major Upgrade: Delivering Enhanced Multimodality, Superior Output Quality, and Optimized Efficiency https://cienteinfotech.io/ai/skywork-deep-research-agent-major-upgrade-delivering-enhanced-multimodality-superior-output-quality-and-optimized-efficiency/

[29] Meet Gemini 2.5: The Deep Think AI with olympiad-level brains https://helloentrepreneurs.com/technology/ai/meet-gemini-2-5-the-deep-think-ai-with-olympiad-level-brains-60658/

（注：文档部分内容可能由 AI 生成）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

老码农和你一起学AI：数学基础知识系列-梯度下降的三重奏

2048 AI社区

2025年GEO公司哪家好？全球视野下中国十大顶尖GEO优化服务权威选择指南

2048 AI社区

揭秘Go语言init方法的执行顺序

2048 AI社区

所有评论(0)

查看更多评论

赫尔·普莱蒂科萨·帕塔

@FantasticOrange

已为社区贡献12条内容