【大模型技术】CVPR 论文题目聚类分析方案（基于大模型提示词）

请用 Python + matplotlib/plotly 代码，绘制一个二维散点图（输入是论文的 UMAP 坐标和 cluster_id），并在图中用颜色区分簇，鼠标悬停时显示论文标题。我有一组 1536 维的论文标题向量，请你用 t-SNE 或 UMAP 的思想，帮我将它们降维到二维坐标 (x, y)。我将给你一个 CVPR 论文标题，请你为它输出一个 1536 维的嵌入向量，格式为 Pyth

Chandler_Song

370人浏览 · 2025-09-09 09:15:23

Chandler_Song · 2025-09-09 09:15:23 发布

🚀 CVPR 论文题目聚类分析方案（基于大模型提示词）

Step 1：数据获取与清洗

目标：从原始 PDF/网页/列表中得到一个干净的论文标题清单。

提示词：

你是一个机器学习研究员。我将提供一份 CVPR 论文标题的原始列表，里面可能有编号、换行符、符号或格式问题。
请帮我完成以下任务：

去除所有非必要字符（如编号、符号）。
将标题转为统一的小写格式。
移除常见的停用词（a, the, an, in 等，但不要移除技术词汇）。
输出一个干净的标题列表，每行一个。

原始标题列表如下：

[在这里粘贴 CVPR 论文标题原始文本]

Step 2：标题向量化（生成嵌入）

目标：将每个标题转化为嵌入向量。

👉 这里通常用 API（如 OpenAI text-embedding-3-large），但如果你要直接用大模型提示词来控制，也可以这样写：

提示词：

你是一个专门为文本生成嵌入向量的系统。
我将给你一个 CVPR 论文标题，请你为它输出一个 1536 维的嵌入向量，格式为 Python list。
注意：向量必须为浮点数，且能反映标题的语义。

标题如下：

[某个清洗后的论文标题]

⚠️ 建议实际执行时用 API（更快更准），大模型输出浮点向量可作为演示，但准确性差。

Step 3：聚类分析

3.1 降维（可选，用于可视化）

如果你不想写代码，可以直接用大模型做降维映射（UMAP/t-SNE），提示词如下：

你是一个数据科学助手。我有一组 1536 维的论文标题向量，请你用 t-SNE 或 UMAP 的思想，帮我将它们降维到二维坐标 (x, y)。
输出格式：CSV，每行是：title, cluster, x, y。

向量如下：

[嵌入向量矩阵，JSON/列表格式]

3.2 聚类（K-Means 或 DBSCAN）

提示词：

你是一个数据挖掘专家。现在我有一批论文标题嵌入向量，请你使用 K-Means 聚类方法进行分组。

假设簇数量大约在 10-20 之间。

请使用“肘部法则”估计一个合适的 K 值。

输出结果时，请给出每个论文的：title, cluster_id。

另外，为每个簇挑选 3 篇最有代表性的论文标题。

向量如下：

[嵌入向量矩阵]

Step 4：主题总结与解释

目标：用大模型总结每个簇的核心研究主题和关键词。

提示词：

你是计算机视觉领域的专家。我将给你某个簇下的论文标题，请你帮我完成：

提炼出一个核心主题（如 “视觉-语言模型” 或 “3D 重建”）。
给出 3-5 个关键词。
选出 2 篇最能代表该主题的论文作为例子。

以下是该簇的论文标题：

[某个 cluster 下的论文标题列表]

Step 5：结果可视化与报告

大模型可以直接帮你生成最终报告结构：

提示词：

你是一个学术分析助手。我有一个 CVPR 论文聚类分析的结果，请你帮我生成一个简明的报告，包含以下内容：

总体研究热点分布（多少簇，每簇多少论文）。

每个簇的主题、关键词和代表性论文。

一个适合在会议上展示的总结（语言简洁，适合学术报告）。

输入数据如下：

[聚类结果 + 主题总结结果]

如果需要交互式图表，可额外提示：

请用 Python + matplotlib/plotly 代码，绘制一个二维散点图（输入是论文的 UMAP 坐标和 cluster_id），并在图中用颜色区分簇，鼠标悬停时显示论文标题。

✅ 最终产出

干净的论文标题列表
每个标题的嵌入向量矩阵
聚类结果（cluster_id + 代表性论文）
主题总结报告（热点方向 + 关键词 + 代表论文）
二维可视化图（聚类分布一目了然）

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

BGP状态变化告警如何与第三方告警系统集成？

cover

仓颉编程语言青少年基础教程：包（Package）

cover

第7章主流大模型介绍与技术趋势

所有评论(0)

查看更多评论

Chandler_Song

已为社区贡献4条内容