毕设日记(开始写论文版)
一个规划:1.15把大概的框架想好,写完第一章想想怎么让AI写。那让cursor写?毕竟能看见代码,也许写得好一点。哦不过cursor是写代码比较好吧,写文章换个ai。哦对,还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧,我觉得画图也要一两天的。先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的prompt:我的毕业论文,第三章内容是@MMchange-main
一个画图prompt:「我的VCPChange模型有多源混合语义文本、基于深度提示学习的层次化文本编码(CLIP编码器每一层加入可学习token)、ITFF融合模块(空间通道像素注意力,而且有跨模态引导的通道交互 (CGCI) 策略),这几个核心创新点。你画一个VCPChange的pipeline图,cvpr风格,较为规整,尽量填满,尽量不要画多个重复模块,但别太简洁,不要有杂乱的线,直接生成图片」
1.15
一个规划:
1.15把大概的框架想好,写完第一章
想想怎么让AI写。那让cursor写?毕竟能看见代码,也许写得好一点。哦不过cursor是写代码比较好吧,写文章换个ai。哦对,还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧,我觉得画图也要一两天的。
先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的
prompt:
「
我的毕业论文,第三章内容是@MMchange-main ,第四章是@rschatgpt ,第三章主要创新:问题1:文本编码的语义局限性
传统多模态变化检测方法使用标准CLIP进行文本编码,固定的文本提示限制了模型的适应性
研究内容1:为CLIP文本编码器的12层Transformer,每层都学习独立的深度提示token,实现层次化的视觉-语言对齐。
问题2:跨模态特征融合的有效性不足
简单的相加或拼接无法充分利用多模态信息的互补性
研究内容2:通过通道、空间、像素注意力三个层次,实现精细化的图像-文本特征融合。
问题3:多文本信息的协同利用
遥感变化检测可以获取多种文本描述(前时相描述、后时相描述、变化描述),但现有方法未能有效协同利用
研究内容3:变化描述提供显式的变化语义,双时相图像描述差异提供隐式的变化信息
;第四章主要创新:问题1:数据集局限性
现有遥感多模态数据集主要关注单图像的问答任务,缺乏对双时相图像变化检测和多工具协同调用的支持
研究内容1:构建了包含双时相图像的多模态数据集,覆盖11种遥感专业工具(图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测)提供单轮对话数据集(5000+个单轮对话)和多轮对话数据集(1000+个多轮对话)
问题2:交互方式单一
大多数系统仅支持单轮对话,无法处理复杂的多轮交互场景
研究内容2:采用ReAct(Reasoning + Acting)框架,进行对话历史管理
问题3:用户查询模糊
自然语言查询往往模糊或不精确,直接影响Agent的工具选择和任务执行准确性
研究内容3:集成Promptomatix自动优化模块,动态优化用户查询以提高工具选择准确性
你认为论文题目是什么?
」
我觉得可以把代码放在本地,然后本地问cursor,省得老开服务器。反正现在也不需要再修改代码了。
取名:VCPChange,数据集BiTool-VQA
1.16
绪论下面的小标题
xsh:1.1 研究背景 1.2国内外研究现状 1.3存在的主要问题 1.4 本文研究内容 1.5 本文的组织架构
wsp:1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构
「用简洁清晰的语言,帮我写绪论,按以下几个小标题1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构。」
要不然自己把所有的章节和小标题想好,然后一个一个小标题去生成?
加引用的prompt:
「请在我提供的论文段落中引用合适的参考文献。
1.确保引用真实文献,作者/标题/期刊/年份等信息须准确。如对某项文献的真实性存疑,存疑文献应标注“可能存在不确定性”或不予引用。
2.限定为近五年文献(2020年至今),采用核心数据库收录论文,高被引文献(如100+引用)优先。
3.参考文献采用latex格式」
第一章 绪论
第二章 相关工作
第三章 基于CLIP的变化检测方法VCPChange
第四章 基于双时相遥感分析的智能遥感Agent
第五章 系统设计 (待定)
第六章 总结与展望
1.18
周末基本啥也没干 打了个耳洞哈哈
统计一下他们参考文献的年份大概是怎么样的
xsh:大概扫了眼 就正常加吧 前面相关工作可能有些很早的文献 后面真正相关的也都是近几年的
第一章写完了
1.19
含泪发誓一天得写一章吧
1.19第二章 1.20第三章 1.21第四章 1.22第五章 1.23第六章 1.24重新画图
第二章:相关工作
wsp:
xsh:

那我觉得我可以
2.1 变化检测
2.1.1 传统变化检测
2.1.2 基于深度学习的的变化检测
2.1.3 多模态遥感变化检测方法(重点介绍引入文本或其他辅助信息的变化检测研究)
2.2 遥感领域的大语言模型与智能体
2.2.1 介绍遥感领域的VQA数据集与模型现状。
指出由单模态向多模态、由判别式向生成式发展的趋势。
2.3.2 大语言模型在遥感中的应用
简述LLM(如Llama, GPT系列)在遥感解译任务中的微调与应用(如RemoteClip, SkyEyeGPT等)。
解释需要的资源比较高,所以用api形式的agent。
2.3.3 基于大模型的智能体(LLM-based Agents)
介绍Agent的核心概念,重点阐述ReAct (Reasoning + Acting) 框架的原理。
综述工具学习(Tool Learning)在Agent中的应用,即让LLM调用外部工具解决复杂问题。
指出目前遥感Agent多为单轮问答,缺乏多工具协同和双时相变化检测能力,且难以处理模糊指令。
1.20
今天写第三章,参考一下他们的
第三章 基于CLIP的遥感变化检测方法VCPChange
3.1 VCPChange变化检测算法
3.1.1 多模态视觉语言模型CLIP介绍
3.1.2 多源混合语义文本构建策略
-
3.1.3 VCPChange 模型总体架构
-
3.1.4 基于深度提示学习的层次化文本编码(对应你的创新点1:解决文本语义僵化,12层独立Token)
-
3.1.5 多维度跨模态注意力特征融合机制(对应你的创新点2:解决融合粗糙,通道/空间/像素三维注意力)
-
3.1.6 混合损失函数设计
3.2 实验设计及结果分析
-
3.2.1 实验数据集与评价指标
-
3.2.2 对比实验结果与分析
-
3.2.3 消融实验
-
3.2.4 典型场景可视化分析(变化检测论文通常需要这一节,展示特定场景如建筑、水体的检测效果)
3.3 本章小结
简单描述一下模型结构和流程「」
1.21今天务必写完第三章

3.1.2 VCPChange 模型总体架构重新写一下。
ITFF融合模块加了点新东西,没直接initial = x + y了。
import torch
import torch.nn as nn
from einops.layers.torch import Rearrange # 假设你用了einops
# --- 模块 1: 跨模态引导通道交互 (创新点:语义对齐) ---
class CGCI(nn.Module):
def __init__(self, dim, reduction=8):
super(CGCI, self).__init__()
self.avg_pool = nn.AdaptiveAvgPool2d(1)
# 文本 -> 图像 的门控
self.text_guide_img = nn.Sequential(
nn.Conv2d(dim, dim // reduction, 1, bias=False),
nn.ReLU(inplace=True),
nn.Conv2d(dim // reduction, dim, 1, bias=False),
nn.Sigmoid()
)
# 图像 -> 文本 的门控
self.img_guide_text = nn.Sequential(
nn.Conv2d(dim, dim // reduction, 1, bias=False),
nn.ReLU(inplace=True),
nn.Conv2d(dim // reduction, dim, 1, bias=False),
nn.Sigmoid()
)
def forward(self, x, y):
# 提取全局指纹
x_global = self.avg_pool(x)
y_global = self.avg_pool(y)
# 生成互注意力权重
weight_img = self.text_guide_img(y_global)
weight_text = self.img_guide_text(x_global)
# 交互校准 (Re-calibrate)
x_new = x * weight_img
y_new = y * weight_text
# 融合
return x_new + y_new
# --- 模块 2: 多尺度空间注意力 (创新点:多感受野) ---
# 替换原有的 SpatialAttention
class MultiScaleSpatialAttention(nn.Module):
def __init__(self):
super(MultiScaleSpatialAttention, self).__init__()
# 分支1: 3x3 卷积,捕捉小目标细节
self.branch3x3 = nn.Conv2d(2, 1, 3, padding=1, bias=False)
# 分支2: 7x7 卷积 (或 dilation conv),捕捉大范围上下文
self.branch7x7 = nn.Conv2d(2, 1, 7, padding=3, padding_mode='reflect', bias=False)
# 融合: 1x1 卷积聚合多尺度信息
self.fuse = nn.Conv2d(2, 1, 1, bias=True)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
# 压缩通道信息: avg + max
x_avg = torch.mean(x, dim=1, keepdim=True)
x_max, _ = torch.max(x, dim=1, keepdim=True)
x2 = torch.cat([x_avg, x_max], dim=1) # [B, 2, H, W]
# 多尺度提取
out3x3 = self.branch3x3(x2)
out7x7 = self.branch7x7(x2)
# 拼接并融合
out = torch.cat([out3x3, out7x7], dim=1) # [B, 2, H, W]
out = self.fuse(out)
# 注意:这里不直接加Sigmoid,因为后面ITFF里可能会处理,
# 但按照你原有的逻辑,这里直接返回特征图即可
return out
# --- 模块 3: 保持原有的 Channel & Pixel Attention ---
class ChannelAttention(nn.Module):
def __init__(self, dim, reduction=8):
super(ChannelAttention, self).__init__()
self.gap = nn.AdaptiveAvgPool2d(1)
self.ca = nn.Sequential(
nn.Conv2d(dim, dim // reduction, 1, padding=0, bias=True),
nn.ReLU(inplace=True),
nn.Conv2d(dim // reduction, dim, 1, padding=0, bias=True),
)
def forward(self, x):
x_gap = self.gap(x)
cattn = self.ca(x_gap)
return cattn
class PixelAttention(nn.Module):
def __init__(self, dim):
super(PixelAttention, self).__init__()
self.pa2 = nn.Conv2d(2 * dim, dim, 7, padding=3, padding_mode='reflect', groups=dim, bias=True)
self.sigmoid = nn.Sigmoid()
def forward(self, x, pattn1):
# ... (保持你原有的逻辑不变) ...
B, C, H, W = x.shape
x = x.unsqueeze(dim=2)
pattn1 = pattn1.unsqueeze(dim=2)
x2 = torch.cat([x, pattn1], dim=2)
x2 = Rearrange('b c t h w -> b (c t) h w')(x2)
pattn2 = self.pa2(x2)
pattn2 = self.sigmoid(pattn2)
return pattn2
# --- 最终的主模块: Improved ITFF ---
class ITFF(nn.Module):
def __init__(self, dim, reduction=8):
super(ITFF, self).__init__()
# 1. 引入 CGCI
self.cgci = CGCI(dim, reduction)
# 2. 升级为 MSSA (多尺度)
self.mssa = MultiScaleSpatialAttention()
self.ca = ChannelAttention(dim, reduction)
self.pa = PixelAttention(dim)
self.conv = nn.Conv2d(dim, dim, 1, bias=True)
self.sigmoid = nn.Sigmoid()
def forward(self, x, y):
# Step 1: 跨模态引导交互 (替代原有的 initial = x + y)
initial = self.cgci(x, y)
# Step 2: 并行提取注意力
cattn = self.ca(initial)
sattn = self.mssa(initial) # 使用多尺度空间注意力
# Step 3: 聚合注意力
pattn1 = sattn + cattn
# Step 4: 像素级精细化
pattn2 = self.pa(initial, pattn1) # 输出最终的 0~1 权重图
# Step 5: 残差融合 (这里建议保留原始 x, y 的信息流)
# 逻辑:基础特征 + 权重 * 图像 + (1-权重) * 文本
result = initial + pattn2 * x + (1 - pattn2) * y
result = self.conv(result)
return result
1.22今天真要写完第三章。。
3.2 实验设计及结果分析
-
3.2.1 实验数据集与评价指标
-
3.2.2 实验设置
-
3.2.3 对比实验结果与分析
-
3.2.4 消融实验
-
3.2.5 典型场景可视化分析(变化检测论文通常需要这一节,展示特定场景如建筑、水体的检测效果)
「我的第四章内容大概是,一个遥感agent,大概流程是:用户输入查询,prompt查询优化,进入ReAct流程。
Thought (推理) "我需要使用工具吗?" "应该用哪个工具?”
Action (行动) 选择工具: EdgeDetection Action Input: image.png
Observation (观察)工具执行结果
决策 任务完成?→ 返回结果;需要更多工具?→ 回到步骤1
以上保存到对话历史,返回用户结果
针对这几个问题做了创新问题1:数据集局限性
现有遥感多模态数据集主要关注单图像的问答任务,缺乏对双时相图像变化检测和多工具协同调用的支持
研究内容1:构建了包含双时相图像的多模态数据集,覆盖11种遥感专业工具(图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测)提供单轮对话数据集(5000+个单轮对话)和多轮对话数据集(1000+个多轮对话)
问题2:交互方式单一
大多数系统仅支持单轮对话,无法处理复杂的多轮交互场景
研究内容2:采用ReAct(Reasoning + Acting)框架,进行对话历史管理
问题3:用户查询模糊
自然语言查询往往模糊或不精确,直接影响Agent的工具选择和任务执行准确性
研究内容3:集成Prompt自动优化模块,动态优化用户查询以提高工具选择准确性,具体来说:观察了之前的遥感VQA数据集都是单图片的(RSVQA SydneyVQA等),因此提出一个双时相图片,包含11种工具调用的数据集。单轮对话/多轮对话遥感QA数据集生成工作流如图。
基于LEVIR-CD、WHU-CD、DSIFN-CD数据集,11个tools,用Qwne2.5-VL生成5000+单轮对话;1000+多轮对话,轮次2-5。多轮对话中有使用tool的也有不使用tool的。有简短用户问题和较长用户问题,符合用户发问分布。
Prompt查询优化策略:
1. 规则基础优化:针对遥感领域的专业术语映射(如"边界"→"edge detection")
LLM动态优化:使用GPT模型重写模糊查询,保持语义一致性
意图检测:自动识别用户意图对应的工具类型。同一个词比如“模糊”,根据用户上下文判断是需要超分辨率还是去噪
缓存机制:避免重复优化相同查询
」
1.23写第四章
第四章
4.1 遥感Agent系统总体架构
4.2 面向多任务协同的遥感多模态数据集构建
4.3 实验设计及结果分析
4.1 遥感Agent系统总体架构
-
4.1.1 系统设计原则
-
阐述系统的核心目标:实现双时相感知、多工具协同、多轮上下文理解。
-
系统具备的三个关键能力:模糊指令消歧能力、复杂任务规划能力、遥感专业工具调用能力。
-
-
4.1.2 总体工作流程
-
描述数据的完整流向:用户自然语言输入 → Prompt优化模块 → ReAct推理核心 → 工具库调用 → 结果反馈。
-
定义各模块间的输入输出接口规范。
-
-
4.1.3 核心功能模块划分
-
简述三大子系统:数据支撑层(Dataset)、意图理解层(Prompt Optimization)、推理执行层(ReAct Agent)。
-
4.2 面向多任务协同的遥感多模态数据集构建 (Dataset Construction)
-
4.2.1 现有数据集局限性分析
-
分析RSVQA、SydneyVQA等数据集在单时相限制和工具调用缺失上的不足。
-
论述构建支持“变化检测”与“多步推理”数据集的必要性。
-
-
4.2.2 数据集构建标准与工具库定义
-
双时相数据源选择:基于LEVIR-CD、WHU-CD、DSIFN-CD构建基础图库。
-
11种专业工具定义:详细列举EdgeDetection, ChangeDetection, ObjectCounting等工具的功能描述与参数要求。
-
-
4.2.3 基于Qwen2.5-VL的数据生成工作流 *
-
单轮对话生成策略:利用大模型生成针对特定工具调用的指令-回复对(5000+条)。
-
多轮对话生成策略:设计2-5轮的交互脚本,模拟“提问-追问-澄清”的真实用户行为(1000+条)。
-
质量控制与人工校验:描述如何清洗数据,确保工具调用的逻辑正确性。
-
4.3 基于意图感知的Prompt自动优化模块 (Prompt Optimization Module)
-
4.3.1 用户查询模糊性问题定义
-
分类常见模糊查询类型:术语不规范(如把“分割”说成“扣一下”)、意图多义(如“看不清”可能指去噪或超分)。
-
-
4.3.2 混合式查询优化策略
-
规则映射机制(Rule-based Mapping):构建遥感领域关键词词典,进行确定性映射。
-
基于LLM的意图重写(LLM-based Rewriting):利用Prompt Engineering引导LLM将口语转化为结构化Agent指令。
-
上下文意图消歧:结合前序对话历史,解析当前模糊指令的真实意图。
-
-
4.3.3 优化模块实现流程(删掉吧 和上一节重复太多)
-
详细描述“输入拦截 → 意图识别 → 策略匹配 → 重写输出”的算法逻辑。
-
引入缓存机制(Caching)以提升高频查询的响应速度。
-
4.4 基于ReAct范式的多轮对话管理模块 (ReAct Dialogue Management)
-
4.4.1 ReAct推理核心机制
-
Thought(推理):描述Agent如何分析当前状态并规划下一步行动(Chain-of-Thought)。
-
Action(行动):描述API调用逻辑,如何从11个工具中通过相似度匹配或直接预测选择最优工具。
-
Observation(观察):描述Agent如何处理工具返回的图像结果或文本数据,并将其纳入推理上下文。
-
-
4.4.2 对话历史与记忆管理 (Memory Management)
-
设计滑动窗口或摘要机制,有效存储多轮对话历史 (Q1,A1,...,Qt)。
-
解决指代消解问题(如处理用户指令“把那个区域放大”)。
-
-
4.4.3 终止条件与异常处理
-
定义任务完成的判别标准(Final Answer)。
-
设计工具调用失败后的自修正机制(Self-Correction)。
-
4.5 实验设计及结果分析 (Experiments & Analysis)
-
4.5.1 实验设置
-
实验环境(显卡型号、框架版本)。
-
基座模型选择(Qwen2.5-VL, GPT-4o等对比模型)。
-
评估指标:
-
工具调用准确率 (Tool Selection Accuracy)。
-
任务执行成功率 (Success Rate, SR)。
-
多轮对话一致性。
-
-
-
4.5.2 核心功能有效性验证
-
Prompt优化消融实验:对比“有无优化模块”对工具选择准确率的影响。
-
ReAct推理效果分析:通过具体案例(Case Study)展示引入ReAct后解决复杂问题的能力提升。
-
-
4.5.3 不同任务类型的性能评估
-
分别展示在“单图像问答”与“双时相变化检测”任务上的表现差异与分析。
-
-
4.5.4 实验总结
-
总结系统在准确性、鲁棒性和多轮交互体验上的优势。
-
1.24继续第四章
1.25继续第四章
至少留
一天弄系统的视频(1.28)
一天通读全文+看所有文献是不是对的 有没有幻觉+检查图和表的标题在上面还是下面+打磨摘要(1.27)
所以真的今明两天是必须弄完
我现在要弄多轮对话的实验和与之前sota对比的实验表格
看一下第三章 实验的那一节是怎么写的

实验设置抄上一章的 对比实验是和RSChatGPT比,消融实验是优化前后,哎呀感觉不是很一样,不太好参考。
1.26把系统debug完 写一章系统
看一下xsh的系统写什么了
ok差不多弄完了 整个草稿写完了
明天来弄一下参考文献,我这里好像只有四十多篇 而且没有中文 明显不够啊。
明天来问ai哪些地方可以加参考文献 然后一篇一篇自己查
1.27
问ai,哪些地方要加参考文献,然后加的一个一个查
池导的一些建议:
1. 指导小组成员:熊贇 教授 王轶彤副教授
2. 不要写“本文”
3. 第一章“国内外研究现状”有关国内研究进展 要从团队的工作角度介绍,国内top5的团队相关工作需要review一下
4. 相关工作这一章的“本章小结”除了阐述总结内容,要对每个技术路线做一下优缺点总结,并引出为何要研究后续章节。后续每一章的总结都要为下一章的研究内容做铺垫,即为何要做下一章的工作。
5. 图片里的英文尽可能改为中文,字体大小比图的caption小一号,不能太小也不能大。这个例子的图字体太大,大家都有类似问题,我不给大家单独发
6. 表格里的单项要改为中文,表格里内容字体比表格caption的字体小一号
7. 参考文献一定要有2025和2026年的论文,以及必需要有中文参考文献
「这个是第一章绪论里面的小节,你写一个第一章绪论里面的引言,很简短的 」
一节一节丢给ai让ai加参考文献?
第三章和第四章的实验加一下参考文献,对着wsp的论文和rsagent的论文加。纯体力活。。。
1.31检查所有参考文献
看一眼那个三方的网站流程走到哪了。看了,现在是已签约
看一下那个1209给同学那个pdf,有哪些要注意的东西、有没有讲参考文献具体需要什么样子。
「这个符合规范吗,如果不符合,你检索真实信息填补,务必真实」
更多推荐


所有评论(0)