一个画图prompt:「我的VCPChange模型有多源混合语义文本、基于深度提示学习的层次化文本编码(CLIP编码器每一层加入可学习token)、ITFF融合模块(空间通道像素注意力,而且有跨模态引导的通道交互 (CGCI) 策略),这几个核心创新点。你画一个VCPChange的pipeline图,cvpr风格,较为规整,尽量填满,尽量不要画多个重复模块,但别太简洁,不要有杂乱的线,直接生成图片」

1.15

一个规划:

1.15把大概的框架想好,写完第一章

想想怎么让AI写。那让cursor写?毕竟能看见代码,也许写得好一点。哦不过cursor是写代码比较好吧,写文章换个ai。哦对,还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧,我觉得画图也要一两天的。

先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的

prompt:

我的毕业论文,第三章内容是@MMchange-main ,第四章是@rschatgpt ,第三章主要创新:问题1:文本编码的语义局限性

传统多模态变化检测方法使用标准CLIP进行文本编码,固定的文本提示限制了模型的适应性

研究内容1:为CLIP文本编码器的12层Transformer,每层都学习独立的深度提示token,实现层次化的视觉-语言对齐。

问题2:跨模态特征融合的有效性不足

简单的相加或拼接无法充分利用多模态信息的互补性

研究内容2:通过通道、空间、像素注意力三个层次,实现精细化的图像-文本特征融合。

问题3:多文本信息的协同利用

遥感变化检测可以获取多种文本描述(前时相描述、后时相描述、变化描述),但现有方法未能有效协同利用

研究内容3:变化描述提供显式的变化语义,双时相图像描述差异提供隐式的变化信息

;第四章主要创新:问题1:数据集局限性

现有遥感多模态数据集主要关注单图像的问答任务,缺乏对双时相图像变化检测和多工具协同调用的支持

研究内容1:构建了包含双时相图像的多模态数据集,覆盖11种遥感专业工具(图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测)提供单轮对话数据集(5000+个单轮对话)和多轮对话数据集(1000+个多轮对话)

问题2:交互方式单一

大多数系统仅支持单轮对话,无法处理复杂的多轮交互场景

研究内容2:采用ReAct(Reasoning + Acting)框架,进行对话历史管理

问题3:用户查询模糊

自然语言查询往往模糊或不精确,直接影响Agent的工具选择和任务执行准确性

研究内容3:集成Promptomatix自动优化模块,动态优化用户查询以提高工具选择准确性

你认为论文题目是什么?

我觉得可以把代码放在本地,然后本地问cursor,省得老开服务器。反正现在也不需要再修改代码了。

取名:VCPChange,数据集BiTool-VQA

1.16

绪论下面的小标题

xsh:1.1 研究背景 1.2国内外研究现状 1.3存在的主要问题 1.4 本文研究内容 1.5 本文的组织架构

wsp:1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构

「用简洁清晰的语言,帮我写绪论,按以下几个小标题1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构。」

要不然自己把所有的章节和小标题想好,然后一个一个小标题去生成?

加引用的prompt:

「请在我提供的论文段落中引用合适的参考文献。
1.确保引用真实文献,作者/标题/期刊/年份等信息须准确。如对某项文献的真实性存疑,存疑文献应标注“可能存在不确定性”或不予引用。
2.限定为近五年文献(2020年至今),采用核心数据库收录论文,高被引文献(如100+引用)优先。
3.参考文献采用latex格式」

第一章 绪论

第二章 相关工作

第三章 基于CLIP的变化检测方法VCPChange

第四章 基于双时相遥感分析的智能遥感Agent

第五章  系统设计 (待定)

第六章 总结与展望

1.18

周末基本啥也没干 打了个耳洞哈哈

统计一下他们参考文献的年份大概是怎么样的

xsh:大概扫了眼 就正常加吧 前面相关工作可能有些很早的文献 后面真正相关的也都是近几年的

第一章写完了

1.19

含泪发誓一天得写一章吧

1.19第二章 1.20第三章 1.21第四章 1.22第五章 1.23第六章 1.24重新画图

第二章:相关工作 

wsp:

xsh:

那我觉得我可以

2.1 变化检测

2.1.1 传统变化检测

2.1.2 基于深度学习的的变化检测

2.1.3 多模态遥感变化检测方法(重点介绍引入文本或其他辅助信息的变化检测研究)

2.2 遥感领域的大语言模型与智能体

2.2.1 介绍遥感领域的VQA数据集与模型现状。

指出由单模态向多模态、由判别式向生成式发展的趋势。

2.3.2 大语言模型在遥感中的应用

简述LLM(如Llama, GPT系列)在遥感解译任务中的微调与应用(如RemoteClip, SkyEyeGPT等)。

解释需要的资源比较高,所以用api形式的agent。

2.3.3 基于大模型的智能体(LLM-based Agents)

介绍Agent的核心概念,重点阐述ReAct (Reasoning + Acting) 框架的原理。

综述工具学习(Tool Learning)在Agent中的应用,即让LLM调用外部工具解决复杂问题。

指出目前遥感Agent多为单轮问答,缺乏多工具协同和双时相变化检测能力,且难以处理模糊指令。

1.20

今天写第三章,参考一下他们的

第三章 基于CLIP的遥感变化检测方法VCPChange

3.1 VCPChange变化检测算法

        3.1.1 多模态视觉语言模型CLIP介绍

        3.1.2 多源混合语义文本构建策略

  • 3.1.3 VCPChange 模型总体架构

  • 3.1.4 基于深度提示学习的层次化文本编码(对应你的创新点1:解决文本语义僵化,12层独立Token)

  • 3.1.5 多维度跨模态注意力特征融合机制(对应你的创新点2:解决融合粗糙,通道/空间/像素三维注意力)

  • 3.1.6 混合损失函数设计

3.2 实验设计及结果分析

  • 3.2.1 实验数据集与评价指标

  • 3.2.2 对比实验结果与分析

  • 3.2.3 消融实验

  • 3.2.4 典型场景可视化分析(变化检测论文通常需要这一节,展示特定场景如建筑、水体的检测效果)

3.3 本章小结

简单描述一下模型结构和流程「」

1.21今天务必写完第三章

3.1.2 VCPChange 模型总体架构重新写一下。

ITFF融合模块加了点新东西,没直接initial = x + y了。

import torch
import torch.nn as nn
from einops.layers.torch import Rearrange # 假设你用了einops

# --- 模块 1: 跨模态引导通道交互 (创新点:语义对齐) ---
class CGCI(nn.Module):
    def __init__(self, dim, reduction=8):
        super(CGCI, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # 文本 -> 图像 的门控
        self.text_guide_img = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, bias=False),
            nn.Sigmoid()
        )
        # 图像 -> 文本 的门控
        self.img_guide_text = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x, y):
        # 提取全局指纹
        x_global = self.avg_pool(x)
        y_global = self.avg_pool(y)
        
        # 生成互注意力权重
        weight_img = self.text_guide_img(y_global)
        weight_text = self.img_guide_text(x_global)
        
        # 交互校准 (Re-calibrate)
        x_new = x * weight_img
        y_new = y * weight_text
        
        # 融合
        return x_new + y_new

# --- 模块 2: 多尺度空间注意力 (创新点:多感受野) ---
# 替换原有的 SpatialAttention
class MultiScaleSpatialAttention(nn.Module):
    def __init__(self):
        super(MultiScaleSpatialAttention, self).__init__()
        # 分支1: 3x3 卷积,捕捉小目标细节
        self.branch3x3 = nn.Conv2d(2, 1, 3, padding=1, bias=False)
        # 分支2: 7x7 卷积 (或 dilation conv),捕捉大范围上下文
        self.branch7x7 = nn.Conv2d(2, 1, 7, padding=3, padding_mode='reflect', bias=False)
        # 融合: 1x1 卷积聚合多尺度信息
        self.fuse = nn.Conv2d(2, 1, 1, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 压缩通道信息: avg + max
        x_avg = torch.mean(x, dim=1, keepdim=True)
        x_max, _ = torch.max(x, dim=1, keepdim=True)
        x2 = torch.cat([x_avg, x_max], dim=1) # [B, 2, H, W]

        # 多尺度提取
        out3x3 = self.branch3x3(x2)
        out7x7 = self.branch7x7(x2)
        
        # 拼接并融合
        out = torch.cat([out3x3, out7x7], dim=1) # [B, 2, H, W]
        out = self.fuse(out)
        
        # 注意:这里不直接加Sigmoid,因为后面ITFF里可能会处理,
        # 但按照你原有的逻辑,这里直接返回特征图即可
        return out 

# --- 模块 3: 保持原有的 Channel & Pixel Attention ---
class ChannelAttention(nn.Module):
    def __init__(self, dim, reduction=8):
        super(ChannelAttention, self).__init__()
        self.gap = nn.AdaptiveAvgPool2d(1)
        self.ca = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, padding=0, bias=True),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, padding=0, bias=True),
        )
    def forward(self, x):
        x_gap = self.gap(x)
        cattn = self.ca(x_gap)
        return cattn

class PixelAttention(nn.Module):
    def __init__(self, dim):
        super(PixelAttention, self).__init__()
        self.pa2 = nn.Conv2d(2 * dim, dim, 7, padding=3, padding_mode='reflect', groups=dim, bias=True)
        self.sigmoid = nn.Sigmoid()
    def forward(self, x, pattn1):
        # ... (保持你原有的逻辑不变) ...
        B, C, H, W = x.shape
        x = x.unsqueeze(dim=2)
        pattn1 = pattn1.unsqueeze(dim=2)
        x2 = torch.cat([x, pattn1], dim=2)
        x2 = Rearrange('b c t h w -> b (c t) h w')(x2)
        pattn2 = self.pa2(x2)
        pattn2 = self.sigmoid(pattn2)
        return pattn2

# --- 最终的主模块: Improved ITFF ---
class ITFF(nn.Module):
    def __init__(self, dim, reduction=8):
        super(ITFF, self).__init__()
        
        # 1. 引入 CGCI
        self.cgci = CGCI(dim, reduction)
        
        # 2. 升级为 MSSA (多尺度)
        self.mssa = MultiScaleSpatialAttention() 
        
        self.ca = ChannelAttention(dim, reduction)
        self.pa = PixelAttention(dim)
        self.conv = nn.Conv2d(dim, dim, 1, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x, y):
        # Step 1: 跨模态引导交互 (替代原有的 initial = x + y)
        initial = self.cgci(x, y) 

        # Step 2: 并行提取注意力
        cattn = self.ca(initial)
        sattn = self.mssa(initial) # 使用多尺度空间注意力

        # Step 3: 聚合注意力
        pattn1 = sattn + cattn
        
        # Step 4: 像素级精细化
        pattn2 = self.pa(initial, pattn1) # 输出最终的 0~1 权重图

        # Step 5: 残差融合 (这里建议保留原始 x, y 的信息流)
        # 逻辑:基础特征 + 权重 * 图像 + (1-权重) * 文本
        result = initial + pattn2 * x + (1 - pattn2) * y
        
        result = self.conv(result)
        return result

1.22今天真要写完第三章。。

3.2 实验设计及结果分析

  • 3.2.1 实验数据集与评价指标

  • 3.2.2 实验设置

  • 3.2.3 对比实验结果与分析

  • 3.2.4 消融实验

  • 3.2.5 典型场景可视化分析(变化检测论文通常需要这一节,展示特定场景如建筑、水体的检测效果)

「我的第四章内容大概是,一个遥感agent,大概流程是:用户输入查询,prompt查询优化,进入ReAct流程。
Thought (推理)  "我需要使用工具吗?" "应该用哪个工具?”
Action (行动) 选择工具: EdgeDetection Action Input: image.png
Observation (观察)工具执行结果
决策 任务完成?→ 返回结果;需要更多工具?→ 回到步骤1
以上保存到对话历史,返回用户结果
针对这几个问题做了创新问题1:数据集局限性
现有遥感多模态数据集主要关注单图像的问答任务,缺乏对双时相图像变化检测和多工具协同调用的支持
研究内容1:构建了包含双时相图像的多模态数据集,覆盖11种遥感专业工具(图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测)提供单轮对话数据集(5000+个单轮对话)和多轮对话数据集(1000+个多轮对话)
问题2:交互方式单一
大多数系统仅支持单轮对话,无法处理复杂的多轮交互场景
研究内容2:采用ReAct(Reasoning + Acting)框架,进行对话历史管理
问题3:用户查询模糊
自然语言查询往往模糊或不精确,直接影响Agent的工具选择和任务执行准确性
研究内容3:集成Prompt自动优化模块,动态优化用户查询以提高工具选择准确性,具体来说:观察了之前的遥感VQA数据集都是单图片的(RSVQA SydneyVQA等),因此提出一个双时相图片,包含11种工具调用的数据集。单轮对话/多轮对话遥感QA数据集生成工作流如图。
基于LEVIR-CD、WHU-CD、DSIFN-CD数据集,11个tools,用Qwne2.5-VL生成5000+单轮对话;1000+多轮对话,轮次2-5。多轮对话中有使用tool的也有不使用tool的。有简短用户问题和较长用户问题,符合用户发问分布。
Prompt查询优化策略:
1. 规则基础优化:针对遥感领域的专业术语映射(如"边界"→"edge detection")
LLM动态优化:使用GPT模型重写模糊查询,保持语义一致性
意图检测:自动识别用户意图对应的工具类型。同一个词比如“模糊”,根据用户上下文判断是需要超分辨率还是去噪
缓存机制:避免重复优化相同查询

1.23写第四章

第四章

4.1 遥感Agent系统总体架构

4.2 面向多任务协同的遥感多模态数据集构建

4.3 实验设计及结果分析

4.1 遥感Agent系统总体架构 
  • 4.1.1 系统设计原则

    • 阐述系统的核心目标:实现双时相感知、多工具协同、多轮上下文理解。

    • 系统具备的三个关键能力:模糊指令消歧能力、复杂任务规划能力、遥感专业工具调用能力。

  • 4.1.2 总体工作流程

    • 描述数据的完整流向:用户自然语言输入 → Prompt优化模块 → ReAct推理核心 → 工具库调用 → 结果反馈。

    • 定义各模块间的输入输出接口规范。

  • 4.1.3 核心功能模块划分

    • 简述三大子系统:数据支撑层(Dataset)、意图理解层(Prompt Optimization)、推理执行层(ReAct Agent)。

4.2 面向多任务协同的遥感多模态数据集构建 (Dataset Construction)
  • 4.2.1 现有数据集局限性分析

    • 分析RSVQA、SydneyVQA等数据集在单时相限制和工具调用缺失上的不足。

    • 论述构建支持“变化检测”与“多步推理”数据集的必要性。

  • 4.2.2 数据集构建标准与工具库定义

    • 双时相数据源选择:基于LEVIR-CD、WHU-CD、DSIFN-CD构建基础图库。

    • 11种专业工具定义:详细列举EdgeDetection, ChangeDetection, ObjectCounting等工具的功能描述与参数要求。

  • 4.2.3 基于Qwen2.5-VL的数据生成工作流 *

    • 单轮对话生成策略:利用大模型生成针对特定工具调用的指令-回复对(5000+条)。

    • 多轮对话生成策略:设计2-5轮的交互脚本,模拟“提问-追问-澄清”的真实用户行为(1000+条)。

    • 质量控制与人工校验:描述如何清洗数据,确保工具调用的逻辑正确性。

4.3 基于意图感知的Prompt自动优化模块 (Prompt Optimization Module)
  • 4.3.1 用户查询模糊性问题定义

    • 分类常见模糊查询类型:术语不规范(如把“分割”说成“扣一下”)、意图多义(如“看不清”可能指去噪或超分)。

  • 4.3.2 混合式查询优化策略

    • 规则映射机制(Rule-based Mapping):构建遥感领域关键词词典,进行确定性映射。

    • 基于LLM的意图重写(LLM-based Rewriting):利用Prompt Engineering引导LLM将口语转化为结构化Agent指令。

    • 上下文意图消歧:结合前序对话历史,解析当前模糊指令的真实意图。

  • 4.3.3 优化模块实现流程(删掉吧 和上一节重复太多)

    • 详细描述“输入拦截 → 意图识别 → 策略匹配 → 重写输出”的算法逻辑。

    • 引入缓存机制(Caching)以提升高频查询的响应速度。

4.4 基于ReAct范式的多轮对话管理模块 (ReAct Dialogue Management)
  • 4.4.1 ReAct推理核心机制

    • Thought(推理):描述Agent如何分析当前状态并规划下一步行动(Chain-of-Thought)。

    • Action(行动):描述API调用逻辑,如何从11个工具中通过相似度匹配或直接预测选择最优工具。

    • Observation(观察):描述Agent如何处理工具返回的图像结果或文本数据,并将其纳入推理上下文。

  • 4.4.2 对话历史与记忆管理 (Memory Management)

    • 设计滑动窗口或摘要机制,有效存储多轮对话历史 (Q1​,A1​,...,Qt​)。

    • 解决指代消解问题(如处理用户指令“把那个区域放大”)。

  • 4.4.3 终止条件与异常处理

    • 定义任务完成的判别标准(Final Answer)。

    • 设计工具调用失败后的自修正机制(Self-Correction)。

4.5 实验设计及结果分析 (Experiments & Analysis)
  • 4.5.1 实验设置

    • 实验环境(显卡型号、框架版本)。

    • 基座模型选择(Qwen2.5-VL, GPT-4o等对比模型)。

    • 评估指标:

      • 工具调用准确率 (Tool Selection Accuracy)

      • 任务执行成功率 (Success Rate, SR)

      • 多轮对话一致性

  • 4.5.2 核心功能有效性验证

    • Prompt优化消融实验:对比“有无优化模块”对工具选择准确率的影响。

    • ReAct推理效果分析:通过具体案例(Case Study)展示引入ReAct后解决复杂问题的能力提升。

  • 4.5.3 不同任务类型的性能评估

    • 分别展示在“单图像问答”与“双时相变化检测”任务上的表现差异与分析。

  • 4.5.4 实验总结

    • 总结系统在准确性、鲁棒性和多轮交互体验上的优势。

1.24继续第四章

1.25继续第四章

至少留

一天弄系统的视频(1.28)

一天通读全文+看所有文献是不是对的 有没有幻觉+检查图和表的标题在上面还是下面+打磨摘要(1.27)

所以真的今明两天是必须弄完

我现在要弄多轮对话的实验和与之前sota对比的实验表格

看一下第三章 实验的那一节是怎么写的

实验设置抄上一章的 对比实验是和RSChatGPT比,消融实验是优化前后,哎呀感觉不是很一样,不太好参考。

1.26把系统debug完 写一章系统

看一下xsh的系统写什么了

ok差不多弄完了 整个草稿写完了

明天来弄一下参考文献,我这里好像只有四十多篇 而且没有中文 明显不够啊。

明天来问ai哪些地方可以加参考文献 然后一篇一篇自己查

1.27

问ai,哪些地方要加参考文献,然后加的一个一个查

池导的一些建议:

1. 指导小组成员:熊贇 教授 王轶彤副教授

2. 不要写“本文”

3. 第一章“国内外研究现状”有关国内研究进展 要从团队的工作角度介绍,国内top5的团队相关工作需要review一下

4. 相关工作这一章的“本章小结”除了阐述总结内容,要对每个技术路线做一下优缺点总结,并引出为何要研究后续章节。后续每一章的总结都要为下一章的研究内容做铺垫,即为何要做下一章的工作。

5. 图片里的英文尽可能改为中文,字体大小比图的caption小一号,不能太小也不能大。这个例子的图字体太大,大家都有类似问题,我不给大家单独发

6. 表格里的单项要改为中文,表格里内容字体比表格caption的字体小一号

7. 参考文献一定要有2025和2026年的论文,以及必需要有中文参考文献

「这个是第一章绪论里面的小节,你写一个第一章绪论里面的引言,很简短的 」

一节一节丢给ai让ai加参考文献?

第三章和第四章的实验加一下参考文献,对着wsp的论文和rsagent的论文加。纯体力活。。。

1.31检查所有参考文献

看一眼那个三方的网站流程走到哪了。看了,现在是已签约

看一下那个1209给同学那个pdf,有哪些要注意的东西、有没有讲参考文献具体需要什么样子。

「这个符合规范吗,如果不符合,你检索真实信息填补,务必真实」

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐