随着城市化进程的加速,对三维建筑数据的快速获取与精准分析已成为城市规划、能源管理、碳排放评估等领域的迫切需求。

然而,现有建筑数据集往往在属性覆盖的全面性、数据更新的时效性以及地理范围的完整性方面存在局限。

由清华大学研究团队合作,在《Scientific Data》上发布CMAB中国多属性建筑数据集

这是中国首个全国尺度、多属性融合的建筑数据集,覆盖全国3,667个空间城市、3,100万栋建筑,总建筑面积达236亿平方米,为城市研究与智慧规划提供了高精度、多维度的数据基础。

该数据集不仅包含建筑的几何属性如屋顶轮廓、高度、结构,还融入了功能、风格、建筑年代、质量等社会属性,实现了从“物理空间”到“社会功能”的全维度刻画,极大推动了城市精细化建模与可持续发展目标的实现。

数据核心信息介绍

CMAB 数据集以全国 3667 个空间城市为研究范围(单个空间城市面积均超过 2km²,总面积达 95670km²),涵盖 3100 万栋建筑,总建筑面积达 236 亿 m²,建筑存量体积共计 3630 亿 m³,是目前国内覆盖范围最广、建筑数量最多的多属性建筑数据集。

图片

中国多属性建筑数据集

其数据时间跨度主要集中在 2021-2024 年,70% 的遥感影像数据采集于 2022-2024 年,确保了数据的时效性与现势性。

数据集创新性地将建筑属性分为几何属性与指示属性两大类,通过多源数据融合与先进算法实现精准提取

基于 0.3-1m 分辨率的 Google Earth 卫星影像,采用 OCRNet 模型进行分割提取,结合人工标注增强样本(最终标注数据集含 8760 个切片、114783 栋建筑),F1-Score 达 89.93%,mIoU(平均交并比)为 81.95%,精度远超现有同类数据集(如 CBRA、90-city BRA)。

图片

中国多属性建筑数据集

以百度地图 982 万栋建筑的楼层数据为训练样本,构建分层 XGBoost 模型(按行政级别分为 5 类模型),结合建筑形态、街区特征、POI 分布等 91 个变量,实现高度预测。其中,非城区建筑预测 R² 达 0.84,MAE(平均绝对误差)仅 2.5 米,在 50 米以下建筑高度预测中,RMSE(均方根误差)显著低于 GABLE、3D-GloBFP 等数据集。

结构(Structure):通过微调 CLIP 多模态模型,结合 6000 万张街景图像(SVIs)的物体检测结果,实现建筑结构类型(如钢筋混凝土、砖混)的分类,top-1 准确率达 25%,优于 GPT-4o 的基础模型性能。

基于百度 AOI(兴趣区域)数据的 30 类地块功能,结合建筑高度、POI 密度、街区形态等特征,采用 XGBoost 模型分类,住宅功能 F1-Score 达 0.90,办公、工业功能 F1-Score 约 0.80,经 2500 个手动验证样本确认,功能分类准确率达 88%。

图片

中国多属性建筑数据集

利用 GAIA 不透水面数据(1985-2018 年),通过建筑质心首次出现在不透水面的时间确定建筑年代,分为 35 个时间类别,与安居客房产交易数据(377 万条记录)的省级相关性达 P<0.05,手动验证一致性达 82%。

基于 Yolov8 模型分析 6000 万张街景图像,检测 “墙面破损”“非法广告”“店面脏乱” 等 6 类质量问题,各类别检测准确率 71.6%-89.2%,通过 100 米缓冲区内多视角评分均值,生成建筑质量指数,与手动评分相关性 R² 达 0.78。

数据集采用标准 GIS 格式存储,每个建筑以 WGS1984 地理坐标系下的多边形(Polygon)表示,包含.shp(图形文件)、.shx(索引文件)、.dbf(属性表文件)、.prj(坐标系统文件)等完整组件。属性表涵盖建筑 ID、屋顶面积、高度、功能类型、建造年代、质量评分、结构类型等 23 个字段,可无缝适配 ArcGIS、QGIS、ENVI 等主流空间分析软件,同时支持 Python(GeoPandas、Rasterio)的批量数据处理。

GIS软件加载

首先以ArcGIS Pro加载为例, 启动软件并在创建新的空白项目,在 ArcGIS Pro 右侧 “目录” 面板中,展开 “数据库”“工程地理数据库”,右键点击空白处,选择 “添加数据”“添加矢量数据”

在弹出的对话框中,浏览至目标.shp 文件,选中后点击 “确定”,数据将自动加载至地图视图,在 “内容列表” 中显示为 “city_result” 图层。

图片

ArcGIS Pro中加载

“内容列表” 中右键点击任意 CMAB 图层,选择 “属性”,“源”,“空间参考”,确认坐标系统为 “GCS_WGS_1984”(地理坐标系),若显示 “未知空间参考”,需手动关联.prj 文件:点击 “空间参考”,“导入”,选择对应省份的.prj 文件,完成坐标匹配。

图片

ArcGIS Pro中加载效果

若需与其他坐标系数据(如 Krasovsky_1940_Albers)叠加分析,可通过 “数据管理工具”“投影和变换”“要素”“投影” 工具,将 CMAB 数据重投影至目标坐标系,输入参数按目标坐标系标准配置。

双击图层名称打开“符号系统” 面板,按属性类型设置不同渲染方式提升数据可视化效果。

图片

ArcGIS Pro中加载效果

若需关联街景图像或 POI 数据,可通过 “空间连接” 工具,按 “100 米缓冲区内最近邻” 规则关联,获取每个建筑的街景图像 ID

图片

ArcGIS Pro中加载效果

开启“编辑” 模式,可对局部区域的建筑属性进行修正(如手动调整高度异常值),修正后保存编辑内容,确保后续分析数据准确性。

如果你没有安装ArcGIS,也可以将矢量数据加载到水经微图5(简称“微图5”)中查看。

微图5是一个基于WeMapEngine为内核研发的全新版本,可以实现秒加千万级SHP数据的功能。

关于其详细介绍请参考水经微图PC版5.1.0正式发布,新增扫码添加图源功能一文。

在微图5中,你可以将数与吉林一号、星图地球、天地图、自定义等卫星影像加载叠加查看,如下图所示。

图片

微图5中加载效果(一)

图片

微图5中加载效果(二)

图片

微图5中加载效果(三)

在实际应用中,这份数据集可广泛服务于多个场景,科研领域,支撑全国建筑存量碳核算、城市化时空演化等研究,规划领域,助力城市更新优先级划分、公共服务设施布局优化;环保领域,辅助建筑能耗模拟、生态敏感区建筑管控。

写在最后

CMAB 数据集作为国内首个国家级多属性建筑数据集,通过多源数据融合与人工智能技术,首次实现了建筑几何属性与指示属性的全国尺度整合,其高精度如屋顶 F1-Score 89.93%、功能分类准确率 88%)、全覆盖(3667 个空间城市、3100 万栋建筑、强兼容支持主流 GIS 软件的特性,使其成为城市研究与管理领域的 “核心数据基石”。

如果你需要该数据,请关注水经注GIS公众号自助领取在后台回复人工客服进群领取

你还可以立即点击分享按钮,将本文分享给你从事城市规划行业的朋友

参考资料

Zhang, Y., Zhao, H., & Long, Y. (2025). CMAB: A Multi-Attribute Building Dataset of China. Scientific Data, 12:430.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐