🚀 CVPR 论文题目聚类分析方案(基于大模型提示词)

Step 1:数据获取与清洗

目标:从原始 PDF/网页/列表中得到一个干净的论文标题清单。

提示词:

你是一个机器学习研究员。我将提供一份 CVPR 论文标题的原始列表,里面可能有编号、换行符、符号或格式问题。
请帮我完成以下任务:

  1. 去除所有非必要字符(如编号、符号)。

  2. 将标题转为统一的小写格式。

  3. 移除常见的停用词(a, the, an, in 等,但不要移除技术词汇)。

  4. 输出一个干净的标题列表,每行一个。

原始标题列表如下:

[在这里粘贴 CVPR 论文标题原始文本]


Step 2:标题向量化(生成嵌入)

目标:将每个标题转化为嵌入向量。

👉 这里通常用 API(如 OpenAI text-embedding-3-large),但如果你要 直接用大模型提示词 来控制,也可以这样写:

提示词:

你是一个专门为文本生成嵌入向量的系统。
我将给你一个 CVPR 论文标题,请你为它输出一个 1536 维的嵌入向量,格式为 Python list。
注意:向量必须为浮点数,且能反映标题的语义。

标题如下:

[某个清洗后的论文标题]

⚠️ 建议实际执行时用 API(更快更准),大模型输出浮点向量可作为演示,但准确性差。


Step 3:聚类分析

3.1 降维(可选,用于可视化)

如果你不想写代码,可以直接用大模型做降维映射(UMAP/t-SNE),提示词如下:

你是一个数据科学助手。我有一组 1536 维的论文标题向量,请你用 t-SNE 或 UMAP 的思想,帮我将它们降维到二维坐标 (x, y)。
输出格式:CSV,每行是:title, cluster, x, y。

向量如下:

[嵌入向量矩阵,JSON/列表格式]


3.2 聚类(K-Means 或 DBSCAN)

提示词:

你是一个数据挖掘专家。现在我有一批论文标题嵌入向量,请你使用 K-Means 聚类 方法进行分组。

假设簇数量大约在 10-20 之间。

请使用“肘部法则”估计一个合适的 K 值。

输出结果时,请给出每个论文的:title, cluster_id。

另外,为每个簇挑选 3 篇最有代表性的论文标题。

向量如下:

[嵌入向量矩阵]


Step 4:主题总结与解释

目标:用大模型总结每个簇的核心研究主题和关键词。

提示词:

你是计算机视觉领域的专家。我将给你某个簇下的论文标题,请你帮我完成:

  1. 提炼出一个核心主题(如 “视觉-语言模型” 或 “3D 重建”)。

  2. 给出 3-5 个关键词。

  3. 选出 2 篇最能代表该主题的论文作为例子。

以下是该簇的论文标题:

[某个 cluster 下的论文标题列表]


Step 5:结果可视化与报告

大模型可以直接帮你生成最终报告结构:

提示词:

你是一个学术分析助手。我有一个 CVPR 论文聚类分析的结果,请你帮我生成一个简明的报告,包含以下内容:

总体研究热点分布(多少簇,每簇多少论文)。

每个簇的主题、关键词和代表性论文。

一个适合在会议上展示的总结(语言简洁,适合学术报告)。

输入数据如下:

[聚类结果 + 主题总结结果]

如果需要交互式图表,可额外提示:

请用 Python + matplotlib/plotly 代码,绘制一个二维散点图(输入是论文的 UMAP 坐标和 cluster_id),并在图中用颜色区分簇,鼠标悬停时显示论文标题。


✅ 最终产出

  1. 干净的论文标题列表

  2. 每个标题的嵌入向量矩阵

  3. 聚类结果(cluster_id + 代表性论文)

  4. 主题总结报告(热点方向 + 关键词 + 代表论文)

  5. 二维可视化图(聚类分布一目了然)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐