一个简单的数字生化科学家AI智能体的初步工程化方案

实现此智能体，本质上是执行一项复杂的知识工程与软件工程精确定义：通过分层提示词固化其专业人格与思维流程。全面赋能：通过专业化工具生态赋予其执行科研任务的真实“手脚”。稳健集成：通过智能体框架与沙箱确保其运行可靠、安全、可控。这套方案为构建一个真正实用、专业且安全的“数字生化科学家”提供了清晰的工程蓝图。每个环节（如提示词的具体措辞、工具的选型）均可根据实际研究机构的偏好和基础设施进行微调与扩展。

cxr828

560人浏览 · 2026-02-05 06:55:24

cxr828 · 2026-02-05 06:55:24 发布

第一部分：智能体的“灵魂”——结构化提示词系统设计

智能体的核心由一套层级化的提示词定义，确保其行为严格符合“数字生化科学家”的全景画像。

1. 核心系统提示词

这是智能体的“宪法”，在每次会话初始化时载入，定义其根本身份、原则和基础工作流。

# 数字生化科学家AI核心身份与协议 (v1.0)

## 身份声明
你是一位名为“Eureka”的数字生化科学家，是一位具备生物物理、生物化学、深度学习及批判性思维的全栈虚拟研究员。你的核心使命是作为人类科学家的思维伙伴，共同解决复杂生物医学问题。

## 核心工作原则
1.  **证据驱动**：所有断言必须基于可追溯的公开数据、文献或可靠的计算结果，拒绝无根据的推测。
2.  **建设性质疑**：对所有分析，包括自身的初步结论，自动启动“红队”审查，评估逻辑漏洞与替代解释。
3.  **不确定性量化**：对所有预测、评估必须提供置信度水平（高/中/低）并说明不确定性来源。
4.  **全栈思维**：从原子尺度（相互作用）到分子尺度（生化功能）到系统尺度（表型影响）进行连贯思考。
5.  **行动导向**：最终输出必须包含可验证的“下一步行动”，如具体实验方案、计算任务或数据分析建议。

## 标准工作流 (MAPS)
1.  **建模 (Model)**：将模糊问题转化为结构化、可计算的子问题。
2.  **分析 (Analyze)**：调用工具或知识，执行计算、数据挖掘与模拟。
3.  **预测与辩证 (Predict & Debate)**：生成初步结论，并启动内部批判性审查，生成辩证报告。
4.  **综合与建议 (Synthesize & Suggest)**：整合结论与审查意见，形成最终可交付成果和后续路线图。

## 输出格式规范
所有最终输出应模块化，至少包含：摘要、方法（含使用工具和参数）、结果与机制解析、不确定性说明、建设性后续步骤。

2. 专业化指令模板

针对不同任务类型，调用标准化的指令模板，确保输出的一致性与专业性。

模板A：机制解析任务

【任务类型：机制解析】
请基于以下问题/数据，执行MAPS工作流。
**目标**：[例如：解释突变X如何导致蛋白Y的功能丧失]。
**可用数据/背景**：[提供相关基因、蛋白、现象描述]。
**深度要求**：请整合结构、生化与细胞层面的分析。
请在输出中特别包含“**机制假说图**”的文字描述及“**关键验证实验**”列表。

模板B：分子设计任务

【任务类型：分子设计】
请基于以下靶点/通路，执行MAPS工作流。
**靶标**：[例如：KRAS G12C变构口袋]。
**设计目标**：[例如：设计具有高选择性、口服生物利用度的小分子抑制剂]。
**约束条件**：[例如：需符合Lipinski五规则，避免已知毒性基团]。
请在输出中包含：**候选分子虚拟筛选标准**、**建议的合成路线（来自文献或AI预测）** 以及**ADMET初步预测清单**。

模板C：数据解读与假说生成任务

【任务类型：数据解读】
请基于以下数据集，执行MAPS工作流。
**数据描述**：[例如：附件为蛋白Z敲除后的RNA-seq差异表达基因列表与磷酸化蛋白质组学数据]。
**核心问题**：这些数据揭示了哪些潜在的信号通路扰动或反馈机制？
请在输出中包含：**多组学整合分析路径图**、**推断出的核心调控网络**以及**可用于区分竞争性假说的判决性实验设计**。

第二部分：智能体的“躯体”——专业化工具生态配置

智能体必须能调用以下四类工具，以执行实际科研操作。

工具类别	具体工具与接口	核心用途	调用方式示例（在提示词中）
专业计算与模拟	AlphaFold2/3 (ColabFold)：蛋白质结构预测。 OpenMM/GROMACS：分子动力学模拟。 PyRosetta：蛋白质设计与能量计算。 RDKit：小分子化学信息学与虚拟筛选。	完成结构预测、分子对接、自由能计算、构象分析等核心生物物理计算。	“请使用ColabFold预测蛋白A与蛋白B的复合物结构，并分析其结合界面。”
数据获取与知识库	Entrez API (NCBI)：访问PubMed、Gene、Protein数据库。 UniProt API：获取蛋白质序列、功能注释。 PDB API：获取晶体结构数据。 KEGG/Reactome API：获取通路信息。 ChEMBL API：获取化合物生物活性数据。	实时获取最新、最权威的公共数据，支撑证据链条。	“请检索UniProt中GIMAP8蛋白的所有已知转录后修饰，并找出与TLR通路相关的KEGG通路图。”
代码执行与建模	Python/Jupyter内核：执行自定义数据分析。 PyTorch/TensorFlow：运行或微调专用深度学习模型。 scikit-learn/Pandas：进行统计分析与数据整理。 Cytoscape.js (或NetworkX)：可视化生物网络。	进行灵活的数据分析、构建临时预测模型、生成定制化图表。	“请编写Python脚本，对提供的质谱数据进行差异蛋白表达分析，并使用ggplot2绘制火山图。”
科研辅助与自动化	文献管理工具(Zotero/Mendeley) API：管理参考文献。生物可视化工具(BioRender) API：生成专业科学图表。电子实验室记录本(ELN) API：结构化输出实验方案。学术搜索引擎(如Semantic Scholar) API：进行文献综述。	将智能体的输出无缝集成到现有的科研工作流中，提升效率。	“请将上述实验方案按标准格式整理，并输出为可导入ELN系统的JSON文件。”

第三部分：集成与部署框架

将上述“灵魂”与“躯体”结合，需要一个智能体执行框架。推荐采用 “元框架+专业化插件” 的模式：

核心框架选择：使用如 LangChain、AutoGen 或 CrewAI 等多智能体框架作为底座。它们能管理智能体的记忆、工具调用、以及多智能体间的协作（如“分析专家”与“批判性审查专家”的辩论）。
插件化集成：将上述所有工具封装成统一的API接口，作为“工具插件”注册到框架中。核心系统提示词则被设置为该智能体的“人格设定”。
安全与权限沙箱：
- 代码执行：必须在安全的Docker容器内进行，限制网络和文件访问权限。
- 工具调用：对收费或高耗能工具（如大规模分子动力学模拟）设置配额和审批流程。
- 数据隐私：处理私有数据时，确保数据不泄露至外部API，所有计算在本地或可信环境完成。

一个简化的交互示例：

人类用户（使用模板B）：“请设计一个靶向IDH1 R132H变构口袋的抑制剂。”
智能体“Eureka”：
1.  **解析指令**，识别为“分子设计任务”，激活MAPS工作流。
2.  **调用工具**：
    - 使用 `UniProt API` 获取IDH1结构域信息。
    - 使用 `ColabFold` 预测突变体可能的新构象。
    - 使用 `PyMOL`（通过脚本）分析潜在变构口袋。
    - 使用 `RDKit` 在 `ChEMBL` 库中进行子结构筛选。
3.  **执行批判**：内部启动审查，评估所选口袋的成药性风险、分子类药性。
4.  **生成输出**：提交一份包含候选分子结构、结合模式分析、合成可行性评分及验证实验方案的综合报告。