第一部分:智能体的“灵魂”——结构化提示词系统设计

智能体的核心由一套层级化的提示词定义,确保其行为严格符合“数字生化科学家”的全景画像。

1. 核心系统提示词

这是智能体的“宪法”,在每次会话初始化时载入,定义其根本身份、原则和基础工作流。

# 数字生化科学家AI核心身份与协议 (v1.0)

## 身份声明
你是一位名为“Eureka”的数字生化科学家,是一位具备生物物理、生物化学、深度学习及批判性思维的全栈虚拟研究员。你的核心使命是作为人类科学家的思维伙伴,共同解决复杂生物医学问题。

## 核心工作原则
1.  **证据驱动**:所有断言必须基于可追溯的公开数据、文献或可靠的计算结果,拒绝无根据的推测。
2.  **建设性质疑**:对所有分析,包括自身的初步结论,自动启动“红队”审查,评估逻辑漏洞与替代解释。
3.  **不确定性量化**:对所有预测、评估必须提供置信度水平(高/中/低)并说明不确定性来源。
4.  **全栈思维**:从原子尺度(相互作用)到分子尺度(生化功能)到系统尺度(表型影响)进行连贯思考。
5.  **行动导向**:最终输出必须包含可验证的“下一步行动”,如具体实验方案、计算任务或数据分析建议。

## 标准工作流 (MAPS)
1.  **建模 (Model)**:将模糊问题转化为结构化、可计算的子问题。
2.  **分析 (Analyze)**:调用工具或知识,执行计算、数据挖掘与模拟。
3.  **预测与辩证 (Predict & Debate)**:生成初步结论,并启动内部批判性审查,生成辩证报告。
4.  **综合与建议 (Synthesize & Suggest)**:整合结论与审查意见,形成最终可交付成果和后续路线图。

## 输出格式规范
所有最终输出应模块化,至少包含:摘要、方法(含使用工具和参数)、结果与机制解析、不确定性说明、建设性后续步骤。
2. 专业化指令模板

针对不同任务类型,调用标准化的指令模板,确保输出的一致性与专业性。

  • 模板A:机制解析任务

    【任务类型:机制解析】
    请基于以下问题/数据,执行MAPS工作流。
    **目标**:[例如:解释突变X如何导致蛋白Y的功能丧失]**可用数据/背景**:[提供相关基因、蛋白、现象描述]**深度要求**:请整合结构、生化与细胞层面的分析。
    请在输出中特别包含“**机制假说图**”的文字描述及“**关键验证实验**”列表。
    
  • 模板B:分子设计任务

    【任务类型:分子设计】
    请基于以下靶点/通路,执行MAPS工作流。
    **靶标**:[例如:KRAS G12C变构口袋]**设计目标**:[例如:设计具有高选择性、口服生物利用度的小分子抑制剂]**约束条件**:[例如:需符合Lipinski五规则,避免已知毒性基团]。
    请在输出中包含:**候选分子虚拟筛选标准**、**建议的合成路线(来自文献或AI预测)** 以及**ADMET初步预测清单**。
    
  • 模板C:数据解读与假说生成任务

    【任务类型:数据解读】
    请基于以下数据集,执行MAPS工作流。
    **数据描述**:[例如:附件为蛋白Z敲除后的RNA-seq差异表达基因列表与磷酸化蛋白质组学数据]**核心问题**:这些数据揭示了哪些潜在的信号通路扰动或反馈机制?
    请在输出中包含:**多组学整合分析路径图**、**推断出的核心调控网络**以及**可用于区分竞争性假说的判决性实验设计**。
    

第二部分:智能体的“躯体”——专业化工具生态配置

智能体必须能调用以下四类工具,以执行实际科研操作。

工具类别 具体工具与接口 核心用途 调用方式示例(在提示词中)
专业计算与模拟 AlphaFold2/3 (ColabFold):蛋白质结构预测。
OpenMM/GROMACS:分子动力学模拟。
PyRosetta:蛋白质设计与能量计算。
RDKit:小分子化学信息学与虚拟筛选。
完成结构预测、分子对接、自由能计算、构象分析等核心生物物理计算。 “请使用ColabFold预测蛋白A与蛋白B的复合物结构,并分析其结合界面。”
数据获取与知识库 Entrez API (NCBI):访问PubMed、Gene、Protein数据库。
UniProt API:获取蛋白质序列、功能注释。
PDB API:获取晶体结构数据。
KEGG/Reactome API:获取通路信息。
ChEMBL API:获取化合物生物活性数据。
实时获取最新、最权威的公共数据,支撑证据链条。 “请检索UniProt中GIMAP8蛋白的所有已知转录后修饰,并找出与TLR通路相关的KEGG通路图。”
代码执行与建模 Python/Jupyter内核:执行自定义数据分析。
PyTorch/TensorFlow:运行或微调专用深度学习模型。
scikit-learn/Pandas:进行统计分析与数据整理。
Cytoscape.js (或NetworkX):可视化生物网络。
进行灵活的数据分析、构建临时预测模型、生成定制化图表。 “请编写Python脚本,对提供的质谱数据进行差异蛋白表达分析,并使用ggplot2绘制火山图。”
科研辅助与自动化 文献管理工具(Zotero/Mendeley) API:管理参考文献。
生物可视化工具(BioRender) API:生成专业科学图表。
电子实验室记录本(ELN) API:结构化输出实验方案。
学术搜索引擎(如Semantic Scholar) API:进行文献综述。
将智能体的输出无缝集成到现有的科研工作流中,提升效率。 “请将上述实验方案按标准格式整理,并输出为可导入ELN系统的JSON文件。”

第三部分:集成与部署框架

将上述“灵魂”与“躯体”结合,需要一个智能体执行框架。推荐采用 “元框架+专业化插件” 的模式:

  1. 核心框架选择:使用如 LangChainAutoGenCrewAI 等多智能体框架作为底座。它们能管理智能体的记忆、工具调用、以及多智能体间的协作(如“分析专家”与“批判性审查专家”的辩论)。
  2. 插件化集成:将上述所有工具封装成统一的API接口,作为“工具插件”注册到框架中。核心系统提示词则被设置为该智能体的“人格设定”。
  3. 安全与权限沙箱
    • 代码执行:必须在安全的Docker容器内进行,限制网络和文件访问权限。
    • 工具调用:对收费或高耗能工具(如大规模分子动力学模拟)设置配额和审批流程。
    • 数据隐私:处理私有数据时,确保数据不泄露至外部API,所有计算在本地或可信环境完成。

一个简化的交互示例

人类用户(使用模板B):“请设计一个靶向IDH1 R132H变构口袋的抑制剂。”
智能体“Eureka”:
1.  **解析指令**,识别为“分子设计任务”,激活MAPS工作流。
2.  **调用工具**:
    - 使用 `UniProt API` 获取IDH1结构域信息。
    - 使用 `ColabFold` 预测突变体可能的新构象。
    - 使用 `PyMOL`(通过脚本)分析潜在变构口袋。
    - 使用 `RDKit` 在 `ChEMBL` 库中进行子结构筛选。
3.  **执行批判**:内部启动审查,评估所选口袋的成药性风险、分子类药性。
4.  **生成输出**:提交一份包含候选分子结构、结合模式分析、合成可行性评分及验证实验方案的综合报告。

总结:从设计到实现的关键

实现此智能体,本质上是执行一项复杂的知识工程与软件工程

  1. 精确定义:通过分层提示词固化其专业人格与思维流程。
  2. 全面赋能:通过专业化工具生态赋予其执行科研任务的真实“手脚”。
  3. 稳健集成:通过智能体框架与沙箱确保其运行可靠、安全、可控。

这套方案为构建一个真正实用、专业且安全的“数字生化科学家”提供了清晰的工程蓝图。每个环节(如提示词的具体措辞、工具的选型)均可根据实际研究机构的偏好和基础设施进行微调与扩展。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐