多媒体技术-音频与图像基础

发表于 2026-03-16 更新于 2026-03-21 分类于专业知识，多媒体技术

本文接续上篇，整理多媒体技术中音频、图像的核心概念、计算与格式，适合备考与技术入门查阅。

📝 核心公式

文本：1汉字 ≈ 2字节（UTF-8）
图像：大小 = 分辨率 × 色深 ÷ 8
音频：大小 = 码率(kbps) × 时长(秒) ÷ 8
视频：大小 = 码率(Mbps) × 时长(秒) ÷ 8

📊 典型大小对比

格式	示例场景	近似大小	量级
TXT	100万字中文文本	≈ 2 MB	文本级
BMP	1024×768，24位色位图	≈ 2.25 MB	图像级
JPG	1024×768，中等质量图片	50 KB~200 KB	图像级
PNG	1024×768，32位色透明图片	200 KB~500 KB	图像级
MP3	10分钟，128kbps音频	≈ 93.75 MB	音频级
WAV	10分钟，44.1kHz/16位立体声	≈ 100.8 MB	音频级
MPEG	10分钟，1Mbps视频	≈ 75 MB	视频级
MP4	10分钟，2Mbps视频	≈ 150 MB	视频级

⚡ 快速判断技巧

体积排序：文本 < 压缩图片 < 无损图片 < 音频 < 视频
同类型对比：
- 图片：BMP > PNG > JPG
- 音频：WAV > MP3
- 视频：分辨率/码率越高，体积越大
高频考点经验值：
- 100万字TXT ≈ 2MB
- 1分钟128kbps MP3 ≈ 9.4MB
- 1分钟1Mbps MPEG ≈ 7.5MB

✅ 真题答案

下列文件中数据量最小的是：
A. 100万字TXT B. 1024×768×24位BMP C. 10分钟MP3 D. 10分钟MPEG
答案：A

多媒体技术-音频与图像基础

一、音频基础 🎧

音频是多媒体中承载声音信息的重要载体，其核心是将模拟声音信号数字化。

1. 音频相关概念

声音带宽：声音音波的频率范围。人耳可听范围为 20Hz–20kHz，超过20kHz为超声波，小于20Hz为次声波；日常说话频率范围约 300–3400Hz，乐器频率范围与人耳一致。
采样：将模拟信号在时间上离散化的过程，核心参数为采样频率和采样精度。
- 奈奎斯特特定理：采样频率需为声音最高频率的2倍，才能保证基本不失真。
模拟音频信号数字化：需经过 采样 → 量化 → 编码 三个步骤，最终将模拟声音转换为二进制数字编码。

2. 音频数据量计算

核心公式：

码率（bit/s） = 采样频率 × 量化位数 × 声道数
数据量（字节） = (采样频率 × 量化位数 × 声道数 × 时间) / 8
数据量（MB） = 数据量（字节） / (1024 × 1024)

示例计算：

CD唱片码率：44.1 kHz × 16 bits × 2 = 176.4 kbit/s = 22.05 KB/s
1小时数据量：22.05 KB/s × 3600 = 79380 KB ≈ 77.52 MB

题目示例：采样频率96kHz，量化位数24bit，双声道，5分钟

1 2	数据量 = (96000 × 24 × 2 × 300) / 8 = 172,800,000 字节 172,800,000 / (1024×1024) ≈ 164.79 MB

3. 常见音频文件格式

格式	特点	典型应用
MP3	有损压缩，文件小，音质较好	网络音乐、流媒体
AAC	高级音频编码，低码率下音质优于MP3	Apple设备、iTunes
WAV	微软RIFF标准，无压缩/少压缩，音质高	Windows系统、专业音频
FLAC	无损压缩，音质与原音频一致	发烧友、专业音频处理
AIFF	苹果音频交换格式，兼容性好	Mac平台
OGG	开源编码，支持有损/无损压缩	网络流媒体
MIDI	非波形采样，存储音乐演奏指令，文件极小	电子音乐、游戏音效

二、图像与图形基础 🖼️

图像是计算机中视觉信息的核心载体，分为位图和矢量图两大类。

1. 图像三要素

亮度：颜色的明亮程度
色调：颜色的种类（红、绿、蓝等）
饱和度：色彩的艳丽程度

2. 图像数字化过程

将模拟图像转换为数字图像的步骤：

扫描：将画面划分为 M×N 网格，每个网格为一个取样点
分色：将彩色图像取样点颜色分解为 RGB 三个基色
取样：测量每个取样点每个基色的亮度值
量化：对亮度值进行 A/D 转换，将模拟值转为离散数字

3. 图像在计算机中的表示

灰度图像：用一个矩阵表示，矩阵元素为像素亮度值
彩色图像：用一组（通常3个）矩阵表示，分别对应RGB三个颜色分量
分辨率：矩阵行数为垂直分辨率，列数为水平分辨率
像素深度：每个像素用多少位二进制表示，决定了颜色数量（色数 = 2^像素深度）

4. 图像数据量计算

核心公式：

图像数据量（字节） = 水平分辨率 × 垂直分辨率 × 像素深度 / 8
或：图像数据量（字节） = 水平分辨率 × 垂直分辨率 × log₂(色数) / 8

示例计算：

1920×1080，24位色：1920×1080×24/8/1024/1024 ≈ 5.93 MB
1920×1080，256色（8位）：1920×1080×8/8/1024/1024 ≈ 1.98 MB

视频容量计算：
视频容量 = 每帧图像容量 × 帧率 × 时间 + 音频数据量 × 时间

示例：1280×720，24位色，30帧/秒，双声道44.1kHz/16bit音频，1分钟

1
2
3

图像数据量 = 1280×720×24/8 × 30 × 60 = 497,664,000 字节
音频数据量 = 44100×16×2/8 × 60 = 10,584,000 字节
总容量 = (497,664,000 + 10,584,000) / (1024×1024) ≈ 484.77 MB

5. 图像压缩

压缩目的：去除信息冗余，减少存储空间，提高传输效率
压缩原理：去除确定/可推知的冗余信息，保留不确定的本质信息
压缩标准：
- 静态图像：JPEG（联合图片专家组）
- 动态图像：MPEG（动态图像专家组）
压缩类型：
- 无损压缩：可完全还原数据，无信息丢失，适用于医学影像、专业摄影
  - 算法：Huffman编码、算术编码、游程编码、字典编码
- 有损压缩：牺牲部分视觉细节换取高压缩比，适用于网页、社交媒体
  - 算法：预测编码、变换编码

6. 常见图像文件格式

格式	特点	典型应用
BMP	Windows标准，无压缩，兼容性极强	Windows画图、截图
TIFF	高质量，支持多页，适合印刷	扫描仪、桌面出版
GIF	无损压缩，最多256色，支持透明/动画	表情包、简单动画
JPEG	有损压缩，适用范围广，画质可调	数码相机、网页图片
PNG	无损压缩，支持透明，画质好	网页图标、透明背景图

7. 位图 vs 矢量图

属性	位图	矢量图
特征	表现色彩浓度与层次	展示清晰线条/文字
用途	照片、复杂图像	文字、商标、规划图
缩放效果	易失真	不失真
文件大小	较大	较小
常用格式	BMP、TIFF、GIF、JPEG	DXF、SWF、AI
编辑软件	Photoshop、Windows画图	CorelDraw、Flash、Office绘图

三、总结 💡

音频：核心是采样-量化-编码，数据量计算需关注采样率、位深和声道数，格式选择需平衡音质与体积。
图像：核心是数字化与压缩，数据量由分辨率和像素深度决定，压缩分为无损和有损，位图与矢量图各有适用场景。
视频：是图像与音频的结合，容量计算需同时考虑图像帧和音频流。

本文为备考整理版，后续将补充视频、动画等其他多媒体类型的基础概念，敬请关注。