建筑图集RAG处理全攻略(非常详细),多模态AI从入门到精通,收藏这一篇就够了!
这篇文章主要介绍建筑设计**规范图集**和**表格**的处理方式。处理完成后,使图片、表格、规范正文可以同时被储存在知识库中,那么AI回答问题时,相关的图集和表格都会根据语义被检索并附在最终回答之后。
前言
这篇文章主要介绍建筑设计规范图集和表格的处理方式。
处理完成后,使图片、表格、规范正文可以同时被储存在知识库中,那么AI回答问题时,相关的图集和表格都会根据语义被检索并附在最终回答之后。
具体实现分为三步:
第一步:数据整理与数据清洗
第二步:将整理好的数据统一向量化并储存
第三步:搭建AI大模型问答流程
实战解析
第一步:数据整理
建筑师都知道,一份完整的规范是图文并茂的,其中也夹杂了大量的表格。想要做出好的问答效果,不同类型的数据需要不同的处理方式。
文本处理方式
规范文本内容一般非常多,在向量化时需要先进行切片处理。因此我将所有规范原文提取,以markdown格式保存。
表格处理方式
将规范原文中的每一个表格单独抽取出来,以html格式保存。后续每一个表格可以单独作为一个切片,最大化保留表格语义。
图片处理方式
将图片用多模态大模型进行详细的描述,保存为对应的图片描述文本。其实就是给图片打了一个文字标签。
数据结构
- description文件夹中保存的是图片描述
- images文件夹中保存的是原图片
- table文件夹中保存的是规范中所有表格
- 最后是纯文字版的《民用建筑设计统一标准》
knowledge_base/├── description/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.txt│ ├── 2. 建筑密度.txt│ ├── ... (共10个txt文件)├── images/│ ├── 1. 建筑基地,道路红线,用地红线,建筑控制线.png│ ├── 2. 建筑密度.png│ ├── ... (共10个png文件)├── table/│ ├── 1. 厕所和浴室隔间的平面尺寸.html│ ├── 2. 独立瓶组间与建筑的防火间距(m).html│ ├── ... (共8个html文件)└── 民用建筑设计统一标准GB50352-2019 - 无表格.txt
以上内容构成了一个完整的《民用建筑统一标准》知识库数据集。图片来自和《民用建筑统一标准》配套的图集。但整个图集页数太多,所以我只选取了前10页来做演示。
第二步:数据向量化并储存
数据向量化我选择的是文本嵌入模型,因此在前一步中,所有数据都需要处理成文本格式。
当然也可以选择使用多模态嵌入模型,这样就不用对图片打标签,可以直接对图片进行向量化。但我个人觉得这种方法缺少对图片语义的精确控制。
文本向量化
对长文本进行切片的方式有很多种,但是对于建筑规范问答这种场景,还是要尽量保证上下文语义。以下图片我处理过后的规范文本的一个片段展示。

我在数据处理的阶段,已经有意识的将合适的小节以空行隔开。因此切片时是以两个换行符作为分隔标志。
文本切片的元数据如下所示:
- • id:所有知识条目的统一编号
- • source:本条知识的来源
- • type:本条知识的类型
- • chunk_index:文本切片的编号
- • content:本条知识的具体内容
"id": 44,"source": "民用建筑设计统一标准GB50352-2019 - 无表格.txt","type": "norm_text","chunk_index": 44,"content": xxxx
表格向量化
通常我们看到的表格是数据及数据结构的图形化表达。但是,html可以用编码的形式准确的描述这种图形化表达,这也最大程度的还原了表格的语义。
另外,如果一个表格被切片成两段,那么他的语义完整性会被严重破坏,因此我们会将一个单独的表格视为一个独立的知识切片进行向量化。
表格的元数据如下所示:
- • id:所有知识条目的统一编号
- • source:本条知识的来源
- • type:本条知识的类型
- • table_file:表格文件的目录
- • table_name:表格的名称
- • content:表格的具体内容
"id": 60, "source": "HTML表格: 各场所的照明评价指标.html", "type": "html_table", "table_file": "knowledge_base\\table\\各场所的照明评价指标.html", "table_name": "各场所的照明评价指标.html", "content":xxxx
图片向量化
本质是将图片的文本描述向量化,然后再将文本描述与图片关联。检索时,是将问题与图片描述进行相似度比较,如果相似度较高,再根据元数据中记录的图片位置将图片取出并附在回答之后。
以下图片选自《民用建筑统一标准图示》

图片的元数据如下所示:
- • id:所有知识条目的统一编号
- • source:本条知识的来源
- • type:本条知识的类型
- • description_file:描述文本的目录
- • image_path:图片的目录
- • image_name:图片的名字
- • content: 图片的具体内容(这里的内容就是图片描述)
"id": 54, "source": "图片描述: 6_建筑层高.txt", "type": "image_description", "description_file": "knowledge_base\\description\\6_建筑层高.txt", "image_path": "knowledge_base\\images\\6_建筑层高.png", "image_name": "6_建筑层高.png", "content":xxxx
第三步:搭建问答流程
用户输入查询问题时,代码会生成查询向量,在FAISS索引中获取所有相似结果并排序;同时也会对用户意图进行检测,看是否需要附上相关图片或表格。

根据意图筛选结果来构建最终提示词。最终提示词包含系统提示词、检索到的知识切片信息、原始用户问题。最后将组合后的提示词再发送给大模型生成回答,如果有需求则整合图片或表格文件到最终回答中。

我测试了两个问题,都可以成功检索出相应图片或表格
问题1:解释一下避难层的含义,并附上相应图集

问题2:楼梯踏步的尺寸要求是什么?请提供相关表格

总结
- • 向量数据库:FAISS
- • 嵌入模型:text-embedding-v4
- • 视觉理解模型:qwen3-vl-plus
- • 大模型:DeepSeek-V3
- • 知识形式:规范文本、规范图集、HTML规范表格
将表格转换为HTML格式,本质是将数据及数据结构的图形化表达转化为纯文本格式的表达。将图集转换为文本描述,本质是对图片打标签。
当然也可以选择多模态嵌入模型直接对表格、规范图集进行向量化,但是该如何对语义进行校准呢?应用层应该比较难实现了,估计要涉及微调及模型的训练了。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)