建筑图集RAG处理全攻略（非常详细），多模态AI从入门到精通，收藏这一篇就够了！

这篇文章主要介绍建筑设计**规范图集**和**表格**的处理方式。处理完成后，使图片、表格、规范正文可以同时被储存在知识库中，那么AI回答问题时，相关的图集和表格都会根据语义被检索并附在最终回答之后。

朝阳区靓仔_James

321人浏览 · 2026-02-27 13:01:59

朝阳区靓仔_James · 2026-02-27 13:01:59 发布

前言

这篇文章主要介绍建筑设计规范图集和表格的处理方式。

处理完成后，使图片、表格、规范正文可以同时被储存在知识库中，那么AI回答问题时，相关的图集和表格都会根据语义被检索并附在最终回答之后。

具体实现分为三步：
第一步：数据整理与数据清洗
第二步：将整理好的数据统一向量化并储存
第三步：搭建AI大模型问答流程

实战解析

第一步：数据整理

建筑师都知道，一份完整的规范是图文并茂的，其中也夹杂了大量的表格。想要做出好的问答效果，不同类型的数据需要不同的处理方式。

文本处理方式

规范文本内容一般非常多，在向量化时需要先进行切片处理。因此我将所有规范原文提取，以markdown格式保存。

表格处理方式

将规范原文中的每一个表格单独抽取出来，以html格式保存。后续每一个表格可以单独作为一个切片，最大化保留表格语义。

图片处理方式

将图片用多模态大模型进行详细的描述，保存为对应的图片描述文本。其实就是给图片打了一个文字标签。

数据结构

description文件夹中保存的是图片描述
images文件夹中保存的是原图片
table文件夹中保存的是规范中所有表格
最后是纯文字版的《民用建筑设计统一标准》

knowledge_base/├── description/│   ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.txt│   ├── 2. 建筑密度.txt│   ├── ... (共10个txt文件)├── images/│   ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.png│   ├── 2. 建筑密度.png│   ├── ... (共10个png文件)├── table/│   ├── 1. 厕所和浴室隔间的平面尺寸.html│   ├── 2. 独立瓶组间与建筑的防火间距(m).html│   ├── ... (共8个html文件)└── 民用建筑设计统一标准GB50352-2019 - 无表格.txt

以上内容构成了一个完整的《民用建筑统一标准》知识库数据集。图片来自和《民用建筑统一标准》配套的图集。但整个图集页数太多，所以我只选取了前10页来做演示。

第二步：数据向量化并储存

数据向量化我选择的是文本嵌入模型，因此在前一步中，所有数据都需要处理成文本格式。

当然也可以选择使用多模态嵌入模型，这样就不用对图片打标签，可以直接对图片进行向量化。但我个人觉得这种方法缺少对图片语义的精确控制。

文本向量化

对长文本进行切片的方式有很多种，但是对于建筑规范问答这种场景，还是要尽量保证上下文语义。以下图片我处理过后的规范文本的一个片段展示。

我在数据处理的阶段，已经有意识的将合适的小节以空行隔开。因此切片时是以两个换行符作为分隔标志。

文本切片的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• chunk_index：文本切片的编号
• content：本条知识的具体内容

"id": 44,"source": "民用建筑设计统一标准GB50352-2019 - 无表格.txt","type": "norm_text","chunk_index": 44,"content": xxxx

表格向量化

通常我们看到的表格是数据及数据结构的图形化表达。但是，html可以用编码的形式准确的描述这种图形化表达，这也最大程度的还原了表格的语义。

另外，如果一个表格被切片成两段，那么他的语义完整性会被严重破坏，因此我们会将一个单独的表格视为一个独立的知识切片进行向量化。

表格的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• table_file：表格文件的目录
• table_name：表格的名称
• content：表格的具体内容

"id": 60, "source": "HTML表格: 各场所的照明评价指标.html", "type": "html_table", "table_file": "knowledge_base\\table\\各场所的照明评价指标.html", "table_name": "各场所的照明评价指标.html", "content":xxxx

图片向量化

本质是将图片的文本描述向量化，然后再将文本描述与图片关联。检索时，是将问题与图片描述进行相似度比较，如果相似度较高，再根据元数据中记录的图片位置将图片取出并附在回答之后。

以下图片选自《民用建筑统一标准图示》

图片的元数据如下所示：

• id：所有知识条目的统一编号
• source：本条知识的来源
• type：本条知识的类型
• description_file：描述文本的目录
• image_path：图片的目录
• image_name：图片的名字
• content: 图片的具体内容（这里的内容就是图片描述）

"id": 54, "source": "图片描述: 6_建筑层高.txt", "type": "image_description", "description_file": "knowledge_base\\description\\6_建筑层高.txt", "image_path": "knowledge_base\\images\\6_建筑层高.png", "image_name": "6_建筑层高.png", "content":xxxx

第三步：搭建问答流程

用户输入查询问题时，代码会生成查询向量，在FAISS索引中获取所有相似结果并排序；同时也会对用户意图进行检测，看是否需要附上相关图片或表格。

根据意图筛选结果来构建最终提示词。最终提示词包含系统提示词、检索到的知识切片信息、原始用户问题。最后将组合后的提示词再发送给大模型生成回答，如果有需求则整合图片或表格文件到最终回答中。

我测试了两个问题，都可以成功检索出相应图片或表格
问题1：解释一下避难层的含义，并附上相应图集

问题2：楼梯踏步的尺寸要求是什么？请提供相关表格

总结

• 向量数据库：FAISS
• 嵌入模型：text-embedding-v4
• 视觉理解模型：qwen3-vl-plus
• 大模型：DeepSeek-V3
• 知识形式：规范文本、规范图集、HTML规范表格

将表格转换为HTML格式，本质是将数据及数据结构的图形化表达转化为纯文本格式的表达。将图集转换为文本描述，本质是对图片打标签。

当然也可以选择多模态嵌入模型直接对表格、规范图集进行向量化，但是该如何对语义进行校准呢?应用层应该比较难实现了，估计要涉及微调及模型的训练了。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～