毕设日记（开始写论文版）

一个规划：1.15把大概的框架想好，写完第一章想想怎么让AI写。那让cursor写？毕竟能看见代码，也许写得好一点。哦不过cursor是写代码比较好吧，写文章换个ai。哦对，还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧，我觉得画图也要一两天的。先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的prompt：我的毕业论文，第三章内容是@MMchange-main

lx741602698

386人浏览 · 2026-01-19 00:47:29

lx741602698 · 2026-01-19 00:47:29 发布

一个画图prompt：「我的VCPChange模型有多源混合语义文本、基于深度提示学习的层次化文本编码（CLIP编码器每一层加入可学习token）、ITFF融合模块（空间通道像素注意力，而且有跨模态引导的通道交互 (CGCI) 策略），这几个核心创新点。你画一个VCPChange的pipeline图，cvpr风格，较为规整，尽量填满，尽量不要画多个重复模块，但别太简洁，不要有杂乱的线，直接生成图片」

1.15

一个规划：

1.15把大概的框架想好，写完第一章

想想怎么让AI写。那让cursor写？毕竟能看见代码，也许写得好一点。哦不过cursor是写代码比较好吧，写文章换个ai。哦对，还要充一下gemini会员。到时候图也要重新画。那画图放在最后吧，我觉得画图也要一两天的。

先把代码传一下github吧。。晚点再看看上一届画的图是什么风格的

prompt：

「

我的毕业论文，第三章内容是@MMchange-main ，第四章是@rschatgpt ，第三章主要创新：问题1:文本编码的语义局限性

传统多模态变化检测方法使用标准CLIP进行文本编码，固定的文本提示限制了模型的适应性

研究内容1:为CLIP文本编码器的12层Transformer，每层都学习独立的深度提示token，实现层次化的视觉-语言对齐。

问题2：跨模态特征融合的有效性不足

简单的相加或拼接无法充分利用多模态信息的互补性

研究内容2:通过通道、空间、像素注意力三个层次，实现精细化的图像-文本特征融合。

问题3：多文本信息的协同利用

遥感变化检测可以获取多种文本描述（前时相描述、后时相描述、变化描述），但现有方法未能有效协同利用

研究内容3:变化描述提供显式的变化语义，双时相图像描述差异提供隐式的变化信息

；第四章主要创新：问题1:数据集局限性

现有遥感多模态数据集主要关注单图像的问答任务，缺乏对双时相图像变化检测和多工具协同调用的支持

研究内容1:构建了包含双时相图像的多模态数据集，覆盖11种遥感专业工具（图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测）提供单轮对话数据集（5000+个单轮对话）和多轮对话数据集（1000+个多轮对话）

问题2：交互方式单一

大多数系统仅支持单轮对话，无法处理复杂的多轮交互场景

研究内容2:采用ReAct（Reasoning + Acting）框架，进行对话历史管理

问题3：用户查询模糊

自然语言查询往往模糊或不精确，直接影响Agent的工具选择和任务执行准确性

研究内容3:集成Promptomatix自动优化模块，动态优化用户查询以提高工具选择准确性

你认为论文题目是什么？

」

我觉得可以把代码放在本地，然后本地问cursor，省得老开服务器。反正现在也不需要再修改代码了。

取名：VCPChange，数据集BiTool-VQA

1.16

绪论下面的小标题

xsh：1.1 研究背景 1.2国内外研究现状 1.3存在的主要问题 1.4 本文研究内容 1.5 本文的组织架构

wsp：1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构

「用简洁清晰的语言，帮我写绪论，按以下几个小标题1.1 研究背景和意义 1.2 国内外研究现状 1.3 存在的主要问题 1.4本文的主要贡献 1.5 本文的组织结构。」

要不然自己把所有的章节和小标题想好，然后一个一个小标题去生成？

加引用的prompt：

「请在我提供的论文段落中引用合适的参考文献。
1.确保引用真实文献，作者/标题/期刊/年份等信息须准确。如对某项文献的真实性存疑，存疑文献应标注“可能存在不确定性”或不予引用。
2.限定为近五年文献（2020年至今），采用核心数据库收录论文，高被引文献（如100+引用）优先。
3.参考文献采用latex格式」

第一章绪论

第二章相关工作

第三章基于CLIP的变化检测方法VCPChange

第四章基于双时相遥感分析的智能遥感Agent

第五章系统设计（待定）

第六章总结与展望

1.18

周末基本啥也没干打了个耳洞哈哈

统计一下他们参考文献的年份大概是怎么样的

xsh：大概扫了眼就正常加吧前面相关工作可能有些很早的文献后面真正相关的也都是近几年的

第一章写完了

1.19

含泪发誓一天得写一章吧

1.19第二章 1.20第三章 1.21第四章 1.22第五章 1.23第六章 1.24重新画图

第二章：相关工作

wsp：

xsh：

那我觉得我可以

2.1 变化检测

2.1.1 传统变化检测

2.1.2 基于深度学习的的变化检测

2.1.3 多模态遥感变化检测方法（重点介绍引入文本或其他辅助信息的变化检测研究）

2.2 遥感领域的大语言模型与智能体

2.2.1 介绍遥感领域的VQA数据集与模型现状。

指出由单模态向多模态、由判别式向生成式发展的趋势。

2.3.2 大语言模型在遥感中的应用

简述LLM（如Llama, GPT系列）在遥感解译任务中的微调与应用（如RemoteClip, SkyEyeGPT等）。

解释需要的资源比较高，所以用api形式的agent。

2.3.3 基于大模型的智能体（LLM-based Agents）

介绍Agent的核心概念，重点阐述ReAct (Reasoning + Acting) 框架的原理。

综述工具学习（Tool Learning）在Agent中的应用，即让LLM调用外部工具解决复杂问题。

指出目前遥感Agent多为单轮问答，缺乏多工具协同和双时相变化检测能力，且难以处理模糊指令。

1.20

今天写第三章，参考一下他们的

第三章基于CLIP的遥感变化检测方法VCPChange

3.1 VCPChange变化检测算法

3.1.1 多模态视觉语言模型CLIP介绍

3.1.2 多源混合语义文本构建策略

3.1.3 VCPChange 模型总体架构
3.1.4 基于深度提示学习的层次化文本编码(对应你的创新点1：解决文本语义僵化，12层独立Token)
3.1.5 多维度跨模态注意力特征融合机制(对应你的创新点2：解决融合粗糙，通道/空间/像素三维注意力)
3.1.6 混合损失函数设计

3.2 实验设计及结果分析

3.2.1 实验数据集与评价指标
3.2.2 对比实验结果与分析
3.2.3 消融实验
3.2.4 典型场景可视化分析(变化检测论文通常需要这一节，展示特定场景如建筑、水体的检测效果)

3.3 本章小结

简单描述一下模型结构和流程「」

1.21今天务必写完第三章

3.1.2 VCPChange 模型总体架构重新写一下。

ITFF融合模块加了点新东西，没直接initial = x + y了。

import torch
import torch.nn as nn
from einops.layers.torch import Rearrange # 假设你用了einops

# --- 模块 1: 跨模态引导通道交互 (创新点：语义对齐) ---
class CGCI(nn.Module):
    def __init__(self, dim, reduction=8):
        super(CGCI, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        # 文本 -> 图像 的门控
        self.text_guide_img = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, bias=False),
            nn.Sigmoid()
        )
        # 图像 -> 文本 的门控
        self.img_guide_text = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, bias=False),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, bias=False),
            nn.Sigmoid()
        )

    def forward(self, x, y):
        # 提取全局指纹
        x_global = self.avg_pool(x)
        y_global = self.avg_pool(y)
        
        # 生成互注意力权重
        weight_img = self.text_guide_img(y_global)
        weight_text = self.img_guide_text(x_global)
        
        # 交互校准 (Re-calibrate)
        x_new = x * weight_img
        y_new = y * weight_text
        
        # 融合
        return x_new + y_new

# --- 模块 2: 多尺度空间注意力 (创新点：多感受野) ---
# 替换原有的 SpatialAttention
class MultiScaleSpatialAttention(nn.Module):
    def __init__(self):
        super(MultiScaleSpatialAttention, self).__init__()
        # 分支1: 3x3 卷积，捕捉小目标细节
        self.branch3x3 = nn.Conv2d(2, 1, 3, padding=1, bias=False)
        # 分支2: 7x7 卷积 (或 dilation conv)，捕捉大范围上下文
        self.branch7x7 = nn.Conv2d(2, 1, 7, padding=3, padding_mode='reflect', bias=False)
        # 融合: 1x1 卷积聚合多尺度信息
        self.fuse = nn.Conv2d(2, 1, 1, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 压缩通道信息: avg + max
        x_avg = torch.mean(x, dim=1, keepdim=True)
        x_max, _ = torch.max(x, dim=1, keepdim=True)
        x2 = torch.cat([x_avg, x_max], dim=1) # [B, 2, H, W]

        # 多尺度提取
        out3x3 = self.branch3x3(x2)
        out7x7 = self.branch7x7(x2)
        
        # 拼接并融合
        out = torch.cat([out3x3, out7x7], dim=1) # [B, 2, H, W]
        out = self.fuse(out)
        
        # 注意：这里不直接加Sigmoid，因为后面ITFF里可能会处理，
        # 但按照你原有的逻辑，这里直接返回特征图即可
        return out 

# --- 模块 3: 保持原有的 Channel & Pixel Attention ---
class ChannelAttention(nn.Module):
    def __init__(self, dim, reduction=8):
        super(ChannelAttention, self).__init__()
        self.gap = nn.AdaptiveAvgPool2d(1)
        self.ca = nn.Sequential(
            nn.Conv2d(dim, dim // reduction, 1, padding=0, bias=True),
            nn.ReLU(inplace=True),
            nn.Conv2d(dim // reduction, dim, 1, padding=0, bias=True),
        )
    def forward(self, x):
        x_gap = self.gap(x)
        cattn = self.ca(x_gap)
        return cattn

class PixelAttention(nn.Module):
    def __init__(self, dim):
        super(PixelAttention, self).__init__()
        self.pa2 = nn.Conv2d(2 * dim, dim, 7, padding=3, padding_mode='reflect', groups=dim, bias=True)
        self.sigmoid = nn.Sigmoid()
    def forward(self, x, pattn1):
        # ... (保持你原有的逻辑不变) ...
        B, C, H, W = x.shape
        x = x.unsqueeze(dim=2)
        pattn1 = pattn1.unsqueeze(dim=2)
        x2 = torch.cat([x, pattn1], dim=2)
        x2 = Rearrange('b c t h w -> b (c t) h w')(x2)
        pattn2 = self.pa2(x2)
        pattn2 = self.sigmoid(pattn2)
        return pattn2

# --- 最终的主模块: Improved ITFF ---
class ITFF(nn.Module):
    def __init__(self, dim, reduction=8):
        super(ITFF, self).__init__()
        
        # 1. 引入 CGCI
        self.cgci = CGCI(dim, reduction)
        
        # 2. 升级为 MSSA (多尺度)
        self.mssa = MultiScaleSpatialAttention() 
        
        self.ca = ChannelAttention(dim, reduction)
        self.pa = PixelAttention(dim)
        self.conv = nn.Conv2d(dim, dim, 1, bias=True)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x, y):
        # Step 1: 跨模态引导交互 (替代原有的 initial = x + y)
        initial = self.cgci(x, y) 

        # Step 2: 并行提取注意力
        cattn = self.ca(initial)
        sattn = self.mssa(initial) # 使用多尺度空间注意力

        # Step 3: 聚合注意力
        pattn1 = sattn + cattn
        
        # Step 4: 像素级精细化
        pattn2 = self.pa(initial, pattn1) # 输出最终的 0~1 权重图

        # Step 5: 残差融合 (这里建议保留原始 x, y 的信息流)
        # 逻辑：基础特征 + 权重 * 图像 + (1-权重) * 文本
        result = initial + pattn2 * x + (1 - pattn2) * y
        
        result = self.conv(result)
        return result

1.22今天真要写完第三章。。

3.2 实验设计及结果分析

3.2.1 实验数据集与评价指标
3.2.2 实验设置
3.2.3 对比实验结果与分析
3.2.4 消融实验
3.2.5 典型场景可视化分析(变化检测论文通常需要这一节，展示特定场景如建筑、水体的检测效果)

「我的第四章内容大概是，一个遥感agent，大概流程是：用户输入查询，prompt查询优化，进入ReAct流程。
Thought (推理) "我需要使用工具吗？" "应该用哪个工具？”
Action (行动) 选择工具: EdgeDetection Action Input: image.png
Observation (观察)工具执行结果
决策任务完成？→ 返回结果；需要更多工具？→ 回到步骤1
以上保存到对话历史，返回用户结果
针对这几个问题做了创新问题1:数据集局限性
现有遥感多模态数据集主要关注单图像的问答任务，缺乏对双时相图像变化检测和多工具协同调用的支持
研究内容1:构建了包含双时相图像的多模态数据集，覆盖11种遥感专业工具（图像描述、场景分类、目标检测、目标计数、边缘检测、变化检测、去云、超分辨率、去噪、水平检测、旋转检测）提供单轮对话数据集（5000+个单轮对话）和多轮对话数据集（1000+个多轮对话）
问题2：交互方式单一
大多数系统仅支持单轮对话，无法处理复杂的多轮交互场景
研究内容2:采用ReAct（Reasoning + Acting）框架，进行对话历史管理
问题3：用户查询模糊
自然语言查询往往模糊或不精确，直接影响Agent的工具选择和任务执行准确性
研究内容3:集成Prompt自动优化模块，动态优化用户查询以提高工具选择准确性，具体来说：观察了之前的遥感VQA数据集都是单图片的（RSVQA SydneyVQA等），因此提出一个双时相图片，包含11种工具调用的数据集。单轮对话/多轮对话遥感QA数据集生成工作流如图。
基于LEVIR-CD、WHU-CD、DSIFN-CD数据集，11个tools，用Qwne2.5-VL生成5000+单轮对话；1000+多轮对话，轮次2-5。多轮对话中有使用tool的也有不使用tool的。有简短用户问题和较长用户问题，符合用户发问分布。
Prompt查询优化策略：
1. 规则基础优化：针对遥感领域的专业术语映射（如"边界"→"edge detection"）
LLM动态优化：使用GPT模型重写模糊查询，保持语义一致性
意图检测：自动识别用户意图对应的工具类型。同一个词比如“模糊”，根据用户上下文判断是需要超分辨率还是去噪
缓存机制：避免重复优化相同查询

」

1.23写第四章

第四章

4.1 遥感Agent系统总体架构

4.2 面向多任务协同的遥感多模态数据集构建

4.3 实验设计及结果分析

4.1 遥感Agent系统总体架构

4.1.1 系统设计原则
- 阐述系统的核心目标：实现双时相感知、多工具协同、多轮上下文理解。
- 系统具备的三个关键能力：模糊指令消歧能力、复杂任务规划能力、遥感专业工具调用能力。
4.1.2 总体工作流程
- 描述数据的完整流向：用户自然语言输入 → Prompt优化模块 → ReAct推理核心 → 工具库调用 → 结果反馈。
- 定义各模块间的输入输出接口规范。
4.1.3 核心功能模块划分
- 简述三大子系统：数据支撑层（Dataset）、意图理解层（Prompt Optimization）、推理执行层（ReAct Agent）。

4.2 面向多任务协同的遥感多模态数据集构建 (Dataset Construction)

4.2.1 现有数据集局限性分析
- 分析RSVQA、SydneyVQA等数据集在单时相限制和工具调用缺失上的不足。
- 论述构建支持“变化检测”与“多步推理”数据集的必要性。
4.2.2 数据集构建标准与工具库定义
- 双时相数据源选择：基于LEVIR-CD、WHU-CD、DSIFN-CD构建基础图库。
- 11种专业工具定义：详细列举EdgeDetection, ChangeDetection, ObjectCounting等工具的功能描述与参数要求。
4.2.3 基于Qwen2.5-VL的数据生成工作流 *
- 单轮对话生成策略：利用大模型生成针对特定工具调用的指令-回复对（5000+条）。
- 多轮对话生成策略：设计2-5轮的交互脚本，模拟“提问-追问-澄清”的真实用户行为（1000+条）。
- 质量控制与人工校验：描述如何清洗数据，确保工具调用的逻辑正确性。

4.3 基于意图感知的Prompt自动优化模块 (Prompt Optimization Module)

4.3.1 用户查询模糊性问题定义
- 分类常见模糊查询类型：术语不规范（如把“分割”说成“扣一下”）、意图多义（如“看不清”可能指去噪或超分）。
4.3.2 混合式查询优化策略
- 规则映射机制（Rule-based Mapping）：构建遥感领域关键词词典，进行确定性映射。
- 基于LLM的意图重写（LLM-based Rewriting）：利用Prompt Engineering引导LLM将口语转化为结构化Agent指令。
- 上下文意图消歧：结合前序对话历史，解析当前模糊指令的真实意图。
4.3.3 优化模块实现流程（删掉吧和上一节重复太多）
- 详细描述“输入拦截 → 意图识别 → 策略匹配 → 重写输出”的算法逻辑。
- 引入缓存机制（Caching）以提升高频查询的响应速度。

4.4 基于ReAct范式的多轮对话管理模块 (ReAct Dialogue Management)

4.4.1 ReAct推理核心机制
- Thought（推理）：描述Agent如何分析当前状态并规划下一步行动（Chain-of-Thought）。
- Action（行动）：描述API调用逻辑，如何从11个工具中通过相似度匹配或直接预测选择最优工具。
- Observation（观察）：描述Agent如何处理工具返回的图像结果或文本数据，并将其纳入推理上下文。
4.4.2 对话历史与记忆管理 (Memory Management)
- 设计滑动窗口或摘要机制，有效存储多轮对话历史 (Q1,A1,...,Qt)。
- 解决指代消解问题（如处理用户指令“把那个区域放大”）。
4.4.3 终止条件与异常处理
- 定义任务完成的判别标准（Final Answer）。
- 设计工具调用失败后的自修正机制（Self-Correction）。

4.5 实验设计及结果分析 (Experiments & Analysis)

4.5.1 实验设置
- 实验环境（显卡型号、框架版本）。
- 基座模型选择（Qwen2.5-VL, GPT-4o等对比模型）。
- 评估指标：
  - 工具调用准确率 (Tool Selection Accuracy)。
  - 任务执行成功率 (Success Rate, SR)。
  - 多轮对话一致性。
4.5.2 核心功能有效性验证
- Prompt优化消融实验：对比“有无优化模块”对工具选择准确率的影响。
- ReAct推理效果分析：通过具体案例（Case Study）展示引入ReAct后解决复杂问题的能力提升。
4.5.3 不同任务类型的性能评估
- 分别展示在“单图像问答”与“双时相变化检测”任务上的表现差异与分析。
4.5.4 实验总结
- 总结系统在准确性、鲁棒性和多轮交互体验上的优势。

1.24继续第四章

1.25继续第四章

至少留

一天弄系统的视频（1.28）

一天通读全文+看所有文献是不是对的有没有幻觉+检查图和表的标题在上面还是下面+打磨摘要（1.27）

所以真的今明两天是必须弄完

我现在要弄多轮对话的实验和与之前sota对比的实验表格

看一下第三章实验的那一节是怎么写的

实验设置抄上一章的对比实验是和RSChatGPT比，消融实验是优化前后，哎呀感觉不是很一样，不太好参考。

1.26把系统debug完写一章系统

看一下xsh的系统写什么了

ok差不多弄完了整个草稿写完了

明天来弄一下参考文献，我这里好像只有四十多篇而且没有中文明显不够啊。

明天来问ai哪些地方可以加参考文献然后一篇一篇自己查

1.27

问ai，哪些地方要加参考文献，然后加的一个一个查

池导的一些建议：

1. 指导小组成员：熊贇教授王轶彤副教授

2. 不要写“本文”

3. 第一章“国内外研究现状”有关国内研究进展要从团队的工作角度介绍，国内top5的团队相关工作需要review一下

4. 相关工作这一章的“本章小结”除了阐述总结内容，要对每个技术路线做一下优缺点总结，并引出为何要研究后续章节。后续每一章的总结都要为下一章的研究内容做铺垫，即为何要做下一章的工作。

5. 图片里的英文尽可能改为中文，字体大小比图的caption小一号，不能太小也不能大。这个例子的图字体太大，大家都有类似问题，我不给大家单独发

6. 表格里的单项要改为中文，表格里内容字体比表格caption的字体小一号

7. 参考文献一定要有2025和2026年的论文，以及必需要有中文参考文献

「这个是第一章绪论里面的小节，你写一个第一章绪论里面的引言，很简短的」

一节一节丢给ai让ai加参考文献？

第三章和第四章的实验加一下参考文献，对着wsp的论文和rsagent的论文加。纯体力活。。。

1.31检查所有参考文献

看一眼那个三方的网站流程走到哪了。看了，现在是已签约

看一下那个1209给同学那个pdf，有哪些要注意的东西、有没有讲参考文献具体需要什么样子。

「这个符合规范吗，如果不符合，你检索真实信息填补，务必真实」

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI PPT 教程：基于旅游生活场景的提示词设计与生成流程

2048 AI社区

鸿蒙开发-想从图片里提取颜色？ColorPicker帮你搞定

文章摘要： HarmonyOS的effectKit提供了ColorPicker工具，可从图片中智能提取主题色。它支持多种取色方式：getMainColor获取主色调，getLargestProportionColor提取占比最多的颜色，getTopProportionColors获取前N种主要颜色，getHighestSaturationColor找出最鲜艳的颜色，以及getAverageColo