你有没有过这种经历?2005 年,你攥着刚买的 128MB U 盘,在网吧里蹲了半小时,只为传 3 首 MP3—— 那时候觉得 “能把歌装进口袋” 简直是魔法;2015 年,你用 3G 网看《花千骨》,进度条卡成 “心电图”,每缓冲 1 分钟只能看 10 秒;2025 年的今天,你在地铁里用 5G 刷 8K 世界杯,球员的汗珠都能看清,还能切换 “教练视角”,全程没有一丝卡顿。

这一切变化的背后,藏着一套你可能从没在意过的 “数字减肥术”—— 音频和视频压缩技术。它不是冷冰冰的参数,而是跟着我们的需求 “一步步长大” 的:你想要 “装更多歌”,它就把文件变小;你想要 “看更清的视频”,它就提升压缩效率;你想要 “不花钱还好用”,它就突破专利壁垒。今天咱们就顺着 “需求驱动技术” 的线,把这事儿聊得像看小说一样过瘾,保证你越读越想知道 “下一章会发生什么”。


一、音频压缩:从 “把声音塞进口袋” 到 “听见每一丝气息”

咱们先从最贴身的 “听歌” 说起 —— 音频压缩的每一次升级,都在解决一个 “让你难受” 的问题。

1. 第一代难题:“CD 好听,但我带不动啊!”——PCM 的 “实在” 与痛点

1980 年代,CD 刚出现的时候,所有人都被惊艳了:比磁带干净太多,没有杂音,每一个音符都清清楚楚。但很快,新麻烦来了 ——CD 用的是PCM(脉冲编码调制) 技术,这玩意儿太 “实在” 了:它会把声音的每一个细节都转换成数字,比如你听李宗盛的《山丘》,吉他弦的震动、换气的气息,甚至录音棚里微弱的电流声,都一点不丢地存下来。

有多 “实在”?一首 4 分钟的 CD 歌曲,文件大小能到 50MB!那时候的 MP3 播放器(比如早期的 iPod)才 5GB 容量,装 100 首歌就满了;更别说当年的手机,内存只有几十 MB,想装首歌都得删短信。

“好听是好听,可我总不能背着 CD 机出门吧?”—— 这就是第一代音频压缩要解决的核心问题:怎么在 “听得清” 和 “装得下” 之间找平衡。

2. 第一次突破:“电话里能听清,就够了!”——ADPCM 的 “将就” 与妥协

1980 年代末,工程师们先把目光投向了 “电话”—— 当时的固定电话只能传声音,不需要多好的音质,只要对方能听清 “喂,吃饭了吗” 就行。于是,ADPCM(自适应差分脉冲编码调制) 诞生了。

它的思路特别 “聪明”:声音是连贯的,比如你说 “你好”,“你” 的尾音和 “好” 的开头是连在一起的,ADPCM 就会 “猜”—— 根据前面的声音,预测后面可能出现的声音,只把 “预测不准的部分” 记下来。这样一来,码率(每秒的数字量)从 PCM 的 1411kbps,一下子降到了 32kbps,文件大小直接缩到原来的 1/40!

效果立竿见影:当年的电话线路终于能传清晰的声音了,甚至早期的对讲机、录音笔,都用的是 ADPCM。但问题也很明显 —— 音质太 “将就” 了:你用 ADPCM 听音乐,会觉得声音 “干巴巴的”,高音刺耳朵,低音没力度,就像把鲜榨果汁兑水兑成了白开水。

“电话够用,但听歌不行啊!”—— 这就催生了下一次技术爆炸。

3. 革命性跨越:“我要揣着几百首歌,还得好听!”——MP3 的 “懂耳朵” 与逆袭

1990 年代初,德国 Fraunhofer 研究所的工程师们憋了个大招:他们发现,人耳其实是 “有漏洞” 的 —— 这就是 “心理声学模型”。简单说有两个关键点:
第一,“掩蔽效应”:比如在吵闹的菜市场,你听不见身边人的小声说话;同样,音乐里 loud(响)的声音,会盖住 quiet(轻)的声音,这些被盖住的声音,就算删掉,你也听不出来。
第二,“高频不敏感”:人耳对 20Hz-20kHz 的声音敏感,但超过 16kHz 的高频,大部分人(尤其是普通人)根本分辨不出来,比如小提琴最高音的泛音,删掉也不影响听感。

工程师们就利用这个 “漏洞”,研发出了MP3(MPEG-1 Audio Layer 3) 。它会像个 “智能剪辑师” 一样,先分析音乐里哪些声音是 “没用的”,偷偷删掉,再把剩下的声音压缩。比如一首 CD 音质的歌,MP3 用 128kbps 的码率压缩后,文件大小只有 4MB 左右,却能保留 90% 以上的听感 —— 你听周杰伦的《七里香》,前奏的吉他、副歌的鼓点,都和 CD 差不多,完全够用。

1998 年,第一台支持 MP3 的播放器 “Rio” 上市,虽然只有 32MB 容量,只能存 8 首歌,但一下子火了!紧接着,Napster(P2P 下载平台)出现,大家终于能免费下载 MP3 了 —— 当年的学生党,谁没在课间用 U 盘给同学传过歌?谁的 MP3 里没存过《双节棍》《Super Star》?

MP3 彻底改变了音乐行业:CD 销量从 2000 年的峰值断崖式下跌,唱片公司骂它 “盗版元凶”,但普通用户却爱死了这种 “揣着歌单走天下” 的自由。这一次,技术终于跟上了需求。

4. 新的需求:“我要听出歌手的呼吸声!”—— 无损压缩的崛起

2010 年之后,智能手机普及了,内存从几百 MB 涨到几十 GB,流量也便宜了。这时候,有人开始不满足于 MP3 了:“我用千元耳机听 MP3,总觉得少点东西 —— 歌手的气声、乐器的泛音,都没了!”

于是,“无损压缩” 成了新的追求。什么是 “无损”?就是压缩后和原文件一模一样,一点声音都不丢,就像把衣服叠起来放进箱子,展开后还是原来的样子,没有褶皱。

第一个火起来的是FLAC(自由无损音频编解码器) :它能把 CD 音质的文件压缩到原来的一半左右(比如 50MB 的 CD 文件,压缩后 25MB),而且开源免费,不用交专利费。发烧友们疯了:“终于能在手机里存高清音乐了!” 比如你听蔡琴的《渡口》,FLAC 格式能清楚听到开头的鼓点 “咚” 的一声,后面的回声都清晰可见,就像在录音棚里听现场。

苹果也不甘示弱,推出了ALAC(苹果无损音频编码) ,专门适配 iPhone 和 AirPods—— 你现在在 Apple Music 里开 “无损音质”,听的就是 ALAC 格式。还有更高端的DSD(直接流数字) ,比如你用万元级的播放器听 DSD 格式的古典音乐,能听到小提琴弦摩擦的细微杂音,就像坐在音乐厅第一排。

从 “能听” 到 “好听”,再到 “听得细”,音频压缩的每一步,都跟着我们对 “音质的追求” 在走 —— 你想要更多,技术就给你更多。


二、视频压缩:从 “卡成 PPT” 到 “8K 丝滑”,每一次升级都在跟 “流量和存储” 死磕

如果说音频压缩是 “给歌减肥”,那视频压缩就是 “给电影、短视频做抽脂手术”—— 难度大了不止 10 倍。因为视频是 “一帧一帧的画面”,比如一部 1 小时的 1080P 视频,有 108000 帧画面,每帧画面都像一张 1MB 的照片,算下来就是 108GB!早年的硬盘才几十 GB,根本装不下;就算装下了,用 2G 网传,得传好几天。

所以视频压缩的核心逻辑,始终是 “怎么用最少的空间和流量,装下最清晰的画面”—— 每一次技术升级,都是在解决 “存储不够” 或 “带宽不够” 的痛点。

1. 第一代难题:“视频能传,但传得太慢了!”——H.261 的 “破冰”

1980 年代,视频会议刚出现的时候,工程师们面临一个绝望的问题:当时的网络带宽只有 64kbps(相当于现在的 “拨号上网”),传一帧画面要好几秒,开会时两个人只能看着 “PPT 一样的画面” 说话,对方的嘴动了,声音半天才传过来。

为了解决这个问题,国际电信联盟(ITU)推出了H.261—— 这是第一个真正能用的视频压缩标准。它的核心思路是 “找重复,删冗余”,分两步走:
第一步,“运动补偿”:比如画面里一个人在说话,H.261 会先存一帧完整的 “基准帧”,后面几帧只记 “人的嘴动了多少、头转了多少度”,不用重复存背景。就像你拍 vlog,只录自己动的部分,背景不变就不用重拍。
第二步,“DCT 变换”:把画面里的颜色和亮度 “简化”,比如一片蓝色的天空,不用记每一个像素的蓝色,只记 “这片区域是浅蓝色”,就像给照片做 “模糊处理”,去掉没必要的杂色。

这一下,视频的码率从 “没法传” 降到了 64kbps-2Mbps,终于能实现 “半流畅” 的视频会议了。虽然画面只有 352×288 像素(比现在的手机屏幕小很多),颜色也单调,但至少 “能看见人动了”—— 这是视频压缩的 “破冰第一步”。

2. 第一次普及:“我要在家看电影!”——MPEG-1 与 VCD 的黄金时代

1990 年代初,大家的需求变了:“能不能把电影装在 CD 里,在家用 VCD 机看?” 要知道,一张普通 CD 的容量只有 650MB,而一部电影如果用 H.261 压缩,至少要好几 GB,根本装不下。

于是,MPEG(动态图像专家组)推出了MPEG-1—— 它把压缩率做到了 26:1!什么概念?一部 1.5 小时的电影,压缩后只有 600MB 左右,刚好能装一张 CD。而且它支持 352×288 像素的画面,虽然现在看很模糊,但在当年,比黑白电视清楚多了。

1993 年,中国的 “万燕 VCD” 上市,一下子引爆了市场。你还记得当年的场景吗?小区里的 “碟片店” 摆满了 VCD,《还珠格格》《古惑仔》《泰坦尼克号》的碟片被租得断货;一家人围在 21 寸的电视机前,看着有点模糊的画面,却觉得 “比电影院还方便”。

MPEG-1 的成功,不是因为技术多先进,而是它刚好解决了 “普通人在家看电影” 的需求 —— 这是视频压缩第一次 “走进千家万户”。

3. 高清时代:“我要看得更清楚!”——MPEG-2 与 DVD 的逆袭

1995 年之后,大家又不满足了:“VCD 的画面太模糊了,能不能看更清楚的?” 比如看《泰坦尼克号》,VCD 里莱昂纳多的脸都是马赛克,根本看不清表情。

这时候,MPEG-2来了。它做了两个关键升级:
第一,支持更高的分辨率:从 MPEG-1 的 352×288,提升到 720×480(标清)、1920×1080(高清),画面一下子清楚了 —— 你看 DVD 里的《指环王》,能看清甘道夫的胡子丝,盔甲上的纹路。
第二,支持 “可变码率”:画面复杂的时候(比如战争场面),多给点码率,保证清晰;画面简单的时候(比如黑场),少给点码率,节省空间。一张 DVD 的容量是 4.7GB,能装 2 小时的高清电影,比 VCD 清楚太多。

1997 年,DVD 机开始普及,VCD 很快被淘汰。当年谁家有 DVD 机,就是 “家庭娱乐顶配”—— 你可能还记着,过年的时候,亲戚们围在一起看 DVD 版的《春晚》,比电视直播清楚,还能快进跳过广告。

MPEG-2 还不止于此,它后来成了数字电视、蓝光碟的标准 —— 直到今天,有些老电视台的信号,还用的是 MPEG-2 编码。

4. 流媒体革命:“我要在网上看视频!”——H.264 的 “统治时代”

2005 年之后,YouTube、土豆网、优酷出现了 —— 大家的需求变成了 “不用下载,直接在网上看视频”。但当时的网络是 2G、3G,带宽只有几百 kbps,用 MPEG-2 看视频,缓冲 10 分钟只能看 1 分钟,根本没法看。

这时候,H.264/AVC(高级视频编码) 横空出世,它的压缩效率比 MPEG-2 高 50%—— 同样的 1080P 画质,H.264 的码率只要 2Mbps,而 MPEG-2 要 4Mbps。这意味着什么?用 3G 网看 H.264 编码的视频,终于不用频繁缓冲了!

你还记得 2010 年左右,用手机看《甄嬛传》的场景吗?虽然画面有点小,但进度条能顺畅走,不用等半天 —— 这就是 H.264 的功劳。它很快成了 “流媒体之王”:YouTube、Netflix、国内的优酷、爱奇艺,90% 的视频都用 H.264 编码;手机、电视、监控摄像头,几乎所有设备都支持 H.264 解码。

H.264 的统治力有多强?直到 2025 年的今天,你刷抖音、快手,看微信视频号,大部分视频还是 H.264 编码的 —— 因为它 “兼容性太好了”,不管是老人的老年机,还是你的旗舰手机,都能轻松解码,不会卡。

5. 4K/8K 时代:“我要极致高清!”——H.265、AV1 与 AVS3 的 “三国杀”

2015 年之后,4K 电视开始普及,大家又喊出了新需求:“我要在家看 4K 电影!” 但问题来了:一部 4K 电影用 H.264 编码,文件大小要 50GB 以上,下载要花好几个小时,硬盘也装不下。

于是,新的压缩技术开始 “打架”,形成了 “三国杀” 的局面:

(1)H.265/HEVC:“我压缩更狠,但要收钱!”

2013 年,H.265/HEVC(高效视频编码) 发布,它的压缩效率比 H.264 高 40%—— 同样的 4K 画质,H.265 只要 25GB,比 H.264 小一半。4K 蓝光碟、超高清电视,都用 H.265 编码;韩国 SK Telecom 的 5G 网络,甚至用 H.265 传 8K 直播。

但 H.265 有个致命缺点:专利费太贵!它的专利池涉及 40 多家公司,你做一台 4K 电视,每台要交 0.5 美元专利费;做一个视频平台,每年要交几百万美元 —— 很多中小公司根本用不起。

(2)AV1:“我免费,还比你好用!”

2018 年,谷歌、亚马逊、Netflix 等公司联合成立 “开放媒体联盟(AOMedia)”,推出了AV1(AOMedia Video 1) 。它的厉害之处在于:
第一,压缩效率比 H.264 高 50%,和 H.265 差不多;
第二,完全开源免费,不用交一分钱专利费;
第三,兼容性越来越好 ——2023 年,Netflix 宣布 80% 的 4K 内容用 AV1 编码,带宽成本降低 30%;YouTube 用 AV1 支持 8K 60fps 视频,你看 8K 的《地球脉动》,画面丝滑得像真的在非洲草原。

现在你用新手机看 4K 视频,大概率是 AV1 编码的 —— 它解决了 “高清” 和 “免费” 的矛盾,成了流媒体的新宠。

(3)AVS3:“我们中国自己的技术,又好又便宜!”

2022 年,咱们中国的AVS3(先进音视频编码标准第三版) 正式商用,它的目标很明确:“既要比别人好用,还要更便宜!”
AVS3 的压缩效率比 H.265 高 40%—— 同样的 8K 画质,AVS3 的文件比 H.265 小 40%;专利费更狠,只有 H.265 的 1/10,国内的电视、手机厂商用起来毫无压力。

2024 年巴黎奥运会,AVS3 实现了 “全球首次 DVB 框架下的 8K 直播”—— 你在家用支持 AVS3 的电视看奥运会,能清楚看到运动员脸上的汗珠,就像在现场一样。现在,车载娱乐、VR 设备都开始用 AVS3,它成了咱们中国在音视频领域 “打破西方垄断” 的关键一步。

从 H.261 的 “能传”,到 MPEG-1 的 “能看”,再到 H.264 的 “能流畅看”,H.265/AV1/AVS3 的 “能高清看”,视频压缩的每一次升级,都在跟 “流量和存储” 死磕 —— 你想要更清晰的画面,技术就想办法把文件变小,让你 “看得爽,还不心疼流量”。


三、未来:2030 年,你会怎么听歌看视频?压缩技术的下一站,比你想象的更疯狂

现在你可能觉得 “8K 已经够清楚了”,但技术永远不会停 —— 就像 2005 年的你,绝对想不到 2025 年能在地铁里看 8K 视频一样,2030 年的体验,会让你觉得现在的技术 “太落后”。而这一切的核心,还是 “需求驱动技术”:你想要 “更沉浸”“更智能”“更自由”,压缩技术就会朝着这些方向狂奔。

1. 压缩效率的 “终极内卷”:H.266 和 AV2,让 16K 视频 “装进口袋”

2020 年,H.266/VVC(多功能视频编码) 发布,它的压缩效率比 H.265 高 50%—— 同样的 16K 画质,H.266 的文件大小只有 H.265 的一半!什么概念?一部 16K 电影,用 H.266 编码,只要 20GB 左右,比现在的 4K 电影还小,你用 5G 网下载,10 分钟就能下完。

但 H.266 有个问题:编码太复杂,普通手机跑不动。不过没关系,2024 年联发科的天玑 9300 芯片已经支持 H.266 实时解码,未来的手机、电视都会标配这种芯片 —— 到 2030 年,你用手机看 16K 视频,就像现在看 1080P 一样轻松。

而 “开源阵营” 的AV2,预计 2026 年发布,目标是比 AV1 再省 30% 码率,还支持 “动态分辨率”—— 比如你看 16K 球赛,盯着球员的时候,画面是 16K 清晰;视线移到观众席,画面自动降到 8K,节省流量。这样一来,就算你用 4G 网,也能看 16K 视频。

2. AI 让压缩技术 “变聪明”:它知道你想看什么,就给你什么

未来的压缩技术,不再是 “一刀切” 地压缩,而是 “智能定制”—— 因为 AI 会帮它 “看懂内容”。

比如 “AI 场景识别”:你看《流浪地球 3》,AI 会自动识别 “太空爆炸”“人物对话”“宇宙星空” 三种场景:

  • 爆炸场景:多给码率,保证火焰、碎片的细节清晰,不会糊;
  • 对话场景:重点优化人物的脸,保证表情清楚,背景可以稍微压缩;
  • 星空场景:星空的颜色变化慢,少给码率,节省空间。

这样一来,整部电影的文件变小了,但你关注的部分,画质反而更好。英伟达已经做过实验,用 AI 压缩的 4K 视频,码率降低 40%,画质却比普通压缩更清晰。

再比如 “AI 音频定制”:你听周杰伦的新歌,AI 会根据你的耳机型号、听力特点,调整音频压缩参数 —— 如果你用的是入门级耳机,AI 会重点保留中频(人声),去掉复杂的高频;如果你用的是万元耳机,AI 会保留所有细节,让你听到周杰伦的每一次呼吸、每一次吉他拨弦。

未来的压缩技术,会像 “私人管家” 一样,知道你喜欢什么,就给你定制什么 —— 你不用管什么格式、什么码率,只需要享受内容就行。

3. 沉浸式体验:VR 里看 16K 演唱会,就像真的在现场

2030 年,VR 设备会像现在的手机一样普及 —— 它不再是 “笨重的头盔”,而是 “轻如眼镜” 的设备,分辨率达到 16K,还支持 “眼球追踪”。

这时候,压缩技术会和 VR 深度结合:比如你用 VR 看周杰伦的演唱会,AI 会根据你的眼球转动,实时调整画面清晰度 —— 你盯着周杰伦的时候,他的脸是 16K 清晰;你转眼看左边的吉他手,吉他手的画面立刻变成 16K,周杰伦的画面降到 8K,这样既能保证体验,又能节省算力。

音频方面,AVS3 音频会支持 “64 声道空间音频”—— 你在 VR 里听演唱会,能清楚分辨 “周杰伦的声音从舞台中央来,吉他声从左边来,鼓声从右边来,观众的欢呼声从身后传来”,就像真的坐在演唱会第一排一样。

4. 绿色压缩:看视频也能 “环保”,每一次播放都在 “省电”

未来的技术,不仅要 “好用”,还要 “环保”—— 压缩技术也不例外。

AV1 比 H.264 能减少 60% 的流媒体碳排放,什么概念?YouTube 用 AV1 后,每年省的电相当于 10 万户家庭的年用电量;如果全球的视频平台都用 AV1,每年能减少 1 亿吨碳排放,相当于少开 2000 万辆汽车。

未来的 H.266、AV2 会更 “省电”—— 比如你的手机支持 H.266 解码,看 1 小时 16K 视频,只消耗 10% 的电量,比现在看 1 小时 4K 视频还省电。这样一来,你看视频不仅爽,还能为环保做贡献。


四、最后:压缩技术的终极目标,是 “让你忘记它的存在”

从 1993 年 MP3 让我们 “揣着歌单走天下”,到 2025 年 AV1 让我们 “在地铁里看 8K 视频”,再到 2030 年 H.266 让我们 “戴着 VR 看 16K 演唱会”,压缩技术一直在做一件事:把复杂的技术藏在背后,让我们只享受内容本身。

它就像一个 “隐形的魔术师”:你不用知道它怎么把 100GB 的电影压缩成 20GB,不用知道它怎么让 AI 识别场景,不用知道什么是 H.266、AV2—— 你只需要打开设备,就能听到最清晰的音乐,看到最流畅的视频,感受到最沉浸的体验。

而未来,这个 “魔术师” 会越来越厉害:它会知道你喜欢什么,会为你定制专属的音视频,会让你在任何地方、用任何设备,都能享受 “没有妥协” 的内容。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐