[Metaverse]体积视频的前世今生

体积视频也叫空间视频、容积视频等，英文名称Volumetric Video。体积视频是一种同时从多个视点（通常包括人或物体）捕获三维（3D）场景的技术，为观众创造逼真的沉浸式体验。它使用相机、传感器和软件的组合从多个角度捕获和处理数据，从而生成捕获场景的 3D表示。体积视频使观众能够四处走动并与虚拟环境互动，提供比传统视频更具沉浸感和吸引力的体验。体积视频生成的未压缩数据非常大，并且取决于场景中

青湖十八

9107人浏览 · 2023-10-20 17:22:40

青湖十八 · 2023-10-20 17:22:40 发布

[DgiWorld数字世界-1]体积视频的前世今生

DgiWorld数字世界系列专栏将聚焦元宇宙相关技术的发展现状，解析核心技术原理，带大家清晰认识元宇宙技术的当前水平、未来路径，以及普通人在这场技术变革中可能扮演的角色。订阅专栏，掌握元宇宙技术前沿动态——今天，我们从系列开篇《体积视频的前世今生》说起。

一、什么是体积视频？

体积视频，又称空间视频、容积视频，英文名为Volumetric Video或Spatial Video。

体积视频是一种通过多个视点（通常针对人或物体）捕获三维（3D）场景的技术，能为观众创造逼真的沉浸式体验。它结合相机、传感器与软件，从多角度采集并处理数据，最终生成场景的3D动态表示。借助体积视频，观众可以“走进”虚拟环境并与之互动，相比传统视频更具沉浸感与吸引力。不过，体积视频生成的未压缩数据量极大，具体大小取决于场景中物体（尤其是人物）的数量。

2008年，Radiohead乐队发布的音乐视频《House of Cards》仅用点云可视化技术呈现画面，被认为是现代体积视频的雏形。2010年后，开源社区的开发者破解了微软硬件设备驱动，让普通用户也能借助微软设备开展体积内容创作实验。

视频部分内容截图

2019年，谷歌发布新一代LightStage X:Relightable系统——通过多角度布局的相机配合同步灯光采集，生成三维模型序列并实现动态播放，进一步推动了体积视频技术的成熟。

二、体积视频有什么优势？

从技术特性来看，体积视频的核心是“空间化模型”——它能被转化为可复用的数字资产，支持360°无死角观看，彻底改变了传统多媒体的交互逻辑。无论是AR/VR场景，还是更广泛的数字应用，体积视频都在颠覆2D视频的固有形态，成为未来视频技术的重要趋势。

在消费级场景中，一部深度相机即可完成基础体积视频捕获；而在专业生产级场景中，往往需要数十甚至上百台相机围绕目标场景部署，配合同等数量的深度相机采集深度信息，最终通过数据融合生成高精度体积视频。

三、如何拍摄体积视频？

相比传统视频，体积视频的制作流程更为复杂，主要包括数据捕获、处理、压缩与回放四个环节。

在这里插入图片描述

1、数据捕获

体积视频的数据捕获需通过特定技术实现场景的三维信息采集，目前主流方案有四种，通常需要十几台甚至更多体积摄像机围绕拍摄对象部署：

飞行时间（ToF）：通过发射红外光并测量其往返于相机与拍摄对象的时间，同步生成彩色图像与深度信息。微软Azure Kinect相机便是采用该技术的典型设备。
摄影测量与多视图深度：利用多台彩色相机从不同角度拍摄，通过图像匹配计算生成深度图像或点云，同时保留彩色信息。
结构光：配备两台红外检测单色相机、一台彩色相机，以及一个投射红外点阵的激光发射器，通过检测点阵变形计算深度，同步输出深度图像与彩色图像。英特尔实感摄像头（Realsense）是该技术的代表应用。
立体视差：模拟人眼“左右眼”视角，用两台彩色相机采集图像，通过视差计算从其中一台相机的彩色图像中生成深度信息与单色图像。

2、数据压缩

由于体积视频的3D模型数据量极大，需通过压缩技术实现网络流式传输，主要有三种压缩方式：

网格压缩：将连续帧中的网格数据压缩，传输后设备仅需解压缩即可使用，无需重新生成网格。
深度和UV贴图压缩：对帧中的深度贴图与UV贴图进行压缩，接收设备需自行生成点、网格或体素后再渲染。
点云压缩：将连续帧中的点云数据压缩，设备接收后可直接渲染点云，或转换为网格、体素后再渲染。

3、数据回放

体积视频的回放方式根据设备与场景需求分为四种，覆盖不同的观看场景：

传统2D视频：将体积捕获的3D模型与影视特效（SFX）结合，输出2D视频用于电影、电视节目或体育赛事直播——例如在体育场大屏幕上用虚拟摄像机生成比赛亮点。
XR设备上的3D渲染：将3D模型传输至AR/VR设备，观众可围绕模型移动，或让模型与现实场景“混合”呈现。
大屏幕电视上的3D渲染：通过游戏机、机顶盒或智能电视接收3D模型，观众可用遥控器选择视角，或通过游戏机控制虚拟摄像机调整渲染角度。
智能手机上的3D渲染：用户可通过触摸屏在3D模型周围“游走”，或利用手机AR功能将模型投射到现实环境中。

写在最后

体积视频的潜力正逐步渗透到生活的方方面面：

在体育领域，若用100台摄像机环绕足球场，可实时捕获球员与观众的每一个细节——观众既能随时暂停、倒带、慢放，也能戴上VR头显“走进”赛场任意角落，或通过XR设备将比赛投影在自家咖啡桌上；在医疗场景，普通诊所的体积捕获室可将患者3D数据实时传输给远方专家，专家戴上VR设备即可“环绕”检查，快速判断是否需要患者长途奔波；在消费领域，鞋业公司可通过体积视频让用户生成个人3D模型，实现“虚拟试鞋”，甚至能在AR中看到鞋子穿在“赛场中的自己”脚上的效果。

对影视行业而言，体积视频能简化特效（SFX）与虚拟制片流程——灯光导演可实时调整演员与3D环境的光照，创意团队能即时看到效果，大幅节省时间与成本。而在元宇宙中，体积视频可将真实场景“搬”入虚拟世界：一场足球赛、一场音乐会，都能被转化为3D模型，让全球用户在元宇宙中相聚，通过空间音频、虚拟烟花等3D功能增强体验。

个人展望

体积视频作为连接现实与虚拟的“数字桥梁”，其发展正在重塑我们与数字内容的交互方式。未来几年，随着硬件成本下降（如消费级深度相机普及）与算法优化（如实时压缩、低功耗渲染），体积视频可能从专业领域走向大众——普通人或许能通过手机+简易配件拍摄家庭聚会的体积视频，用AR眼镜“重现”去年生日时家人围坐的场景；企业无需搭建实体展厅，就能让客户在元宇宙中“触摸”产品细节；教育领域则可通过体积视频构建可交互的3D课堂，让学生“走进”太阳系模型或历史场景。

但它的普及仍需跨越几道关：一是数据传输效率，如何在5G/6G网络下实现高清体积视频的低延迟流式传输；二是设备兼容性，需统一行业标准以避免“不同设备无法互通”的碎片化问题；三是内容生态，需要更多创作者参与，形成从拍摄、编辑到分发的完整链条。

对普通人而言，我们既是技术的受益者，也将是内容的创造者——就像当年智能手机让每个人都能拍视频、剪Vlog，未来的体积视频工具或许会让“3D内容创作”成为大众技能。而体积视频最终的价值，正是让数字世界不再是平面的“屏幕影像”，而是可触摸、可参与、有温度的“平行空间”。