多媒体技术-音频与图像基础
本文接续上篇,整理多媒体技术中音频、图像的核心概念、计算与格式,适合备考与技术入门查阅。
📝 核心公式
- 文本:1汉字 ≈ 2字节(UTF-8)
- 图像:大小 = 分辨率 × 色深 ÷ 8
- 音频:大小 = 码率(kbps) × 时长(秒) ÷ 8
- 视频:大小 = 码率(Mbps) × 时长(秒) ÷ 8
📊 典型大小对比
| 格式 | 示例场景 | 近似大小 | 量级 |
|---|---|---|---|
| TXT | 100万字中文文本 | ≈ 2 MB | 文本级 |
| BMP | 1024×768,24位色位图 | ≈ 2.25 MB | 图像级 |
| JPG | 1024×768,中等质量图片 | 50 KB~200 KB | 图像级 |
| PNG | 1024×768,32位色透明图片 | 200 KB~500 KB | 图像级 |
| MP3 | 10分钟,128kbps音频 | ≈ 93.75 MB | 音频级 |
| WAV | 10分钟,44.1kHz/16位立体声 | ≈ 100.8 MB | 音频级 |
| MPEG | 10分钟,1Mbps视频 | ≈ 75 MB | 视频级 |
| MP4 | 10分钟,2Mbps视频 | ≈ 150 MB | 视频级 |
⚡ 快速判断技巧
- 体积排序:文本 < 压缩图片 < 无损图片 < 音频 < 视频
- 同类型对比:
- 图片:BMP > PNG > JPG
- 音频:WAV > MP3
- 视频:分辨率/码率越高,体积越大
- 高频考点经验值:
- 100万字TXT ≈ 2MB
- 1分钟128kbps MP3 ≈ 9.4MB
- 1分钟1Mbps MPEG ≈ 7.5MB
✅ 真题答案
下列文件中数据量最小的是:
A. 100万字TXT B. 1024×768×24位BMP C. 10分钟MP3 D. 10分钟MPEG
答案:A
多媒体技术-音频与图像基础
一、音频基础 🎧
音频是多媒体中承载声音信息的重要载体,其核心是将模拟声音信号数字化。
1. 音频相关概念
- 声音带宽:声音音波的频率范围。人耳可听范围为 20Hz–20kHz,超过20kHz为超声波,小于20Hz为次声波;日常说话频率范围约 300–3400Hz,乐器频率范围与人耳一致。
- 采样:将模拟信号在时间上离散化的过程,核心参数为采样频率和采样精度。
- 奈奎斯特特定理:采样频率需为声音最高频率的2倍,才能保证基本不失真。
- 模拟音频信号数字化:需经过 采样 → 量化 → 编码 三个步骤,最终将模拟声音转换为二进制数字编码。
2. 音频数据量计算
核心公式:
- 码率(bit/s) = 采样频率 × 量化位数 × 声道数
- 数据量(字节) = (采样频率 × 量化位数 × 声道数 × 时间) / 8
- 数据量(MB) = 数据量(字节) / (1024 × 1024)
示例计算:
- CD唱片码率:
44.1 kHz × 16 bits × 2 = 176.4 kbit/s = 22.05 KB/s - 1小时数据量:
22.05 KB/s × 3600 = 79380 KB ≈ 77.52 MB - 题目示例:采样频率96kHz,量化位数24bit,双声道,5分钟
1
2数据量 = (96000 × 24 × 2 × 300) / 8 = 172,800,000 字节
172,800,000 / (1024×1024) ≈ 164.79 MB
3. 常见音频文件格式
| 格式 | 特点 | 典型应用 |
|---|---|---|
| MP3 | 有损压缩,文件小,音质较好 | 网络音乐、流媒体 |
| AAC | 高级音频编码,低码率下音质优于MP3 | Apple设备、iTunes |
| WAV | 微软RIFF标准,无压缩/少压缩,音质高 | Windows系统、专业音频 |
| FLAC | 无损压缩,音质与原音频一致 | 发烧友、专业音频处理 |
| AIFF | 苹果音频交换格式,兼容性好 | Mac平台 |
| OGG | 开源编码,支持有损/无损压缩 | 网络流媒体 |
| MIDI | 非波形采样,存储音乐演奏指令,文件极小 | 电子音乐、游戏音效 |
二、图像与图形基础 🖼️
图像是计算机中视觉信息的核心载体,分为位图和矢量图两大类。
1. 图像三要素
- 亮度:颜色的明亮程度
- 色调:颜色的种类(红、绿、蓝等)
- 饱和度:色彩的艳丽程度
2. 图像数字化过程
将模拟图像转换为数字图像的步骤:
- 扫描:将画面划分为 M×N 网格,每个网格为一个取样点
- 分色:将彩色图像取样点颜色分解为 RGB 三个基色
- 取样:测量每个取样点每个基色的亮度值
- 量化:对亮度值进行 A/D 转换,将模拟值转为离散数字
3. 图像在计算机中的表示
- 灰度图像:用一个矩阵表示,矩阵元素为像素亮度值
- 彩色图像:用一组(通常3个)矩阵表示,分别对应RGB三个颜色分量
- 分辨率:矩阵行数为垂直分辨率,列数为水平分辨率
- 像素深度:每个像素用多少位二进制表示,决定了颜色数量(色数 = 2^像素深度)
4. 图像数据量计算
核心公式:
- 图像数据量(字节) = 水平分辨率 × 垂直分辨率 × 像素深度 / 8
- 或:图像数据量(字节) = 水平分辨率 × 垂直分辨率 × log₂(色数) / 8
示例计算:
- 1920×1080,24位色:
1920×1080×24/8/1024/1024 ≈ 5.93 MB - 1920×1080,256色(8位):
1920×1080×8/8/1024/1024 ≈ 1.98 MB
视频容量计算:
视频容量 = 每帧图像容量 × 帧率 × 时间 + 音频数据量 × 时间
- 示例:1280×720,24位色,30帧/秒,双声道44.1kHz/16bit音频,1分钟
1
2
3图像数据量 = 1280×720×24/8 × 30 × 60 = 497,664,000 字节
音频数据量 = 44100×16×2/8 × 60 = 10,584,000 字节
总容量 = (497,664,000 + 10,584,000) / (1024×1024) ≈ 484.77 MB
5. 图像压缩
- 压缩目的:去除信息冗余,减少存储空间,提高传输效率
- 压缩原理:去除确定/可推知的冗余信息,保留不确定的本质信息
- 压缩标准:
- 静态图像:JPEG(联合图片专家组)
- 动态图像:MPEG(动态图像专家组)
- 压缩类型:
- 无损压缩:可完全还原数据,无信息丢失,适用于医学影像、专业摄影
- 算法:Huffman编码、算术编码、游程编码、字典编码
- 有损压缩:牺牲部分视觉细节换取高压缩比,适用于网页、社交媒体
- 算法:预测编码、变换编码
- 无损压缩:可完全还原数据,无信息丢失,适用于医学影像、专业摄影
6. 常见图像文件格式
| 格式 | 特点 | 典型应用 |
|---|---|---|
| BMP | Windows标准,无压缩,兼容性极强 | Windows画图、截图 |
| TIFF | 高质量,支持多页,适合印刷 | 扫描仪、桌面出版 |
| GIF | 无损压缩,最多256色,支持透明/动画 | 表情包、简单动画 |
| JPEG | 有损压缩,适用范围广,画质可调 | 数码相机、网页图片 |
| PNG | 无损压缩,支持透明,画质好 | 网页图标、透明背景图 |
7. 位图 vs 矢量图
| 属性 | 位图 | 矢量图 |
|---|---|---|
| 特征 | 表现色彩浓度与层次 | 展示清晰线条/文字 |
| 用途 | 照片、复杂图像 | 文字、商标、规划图 |
| 缩放效果 | 易失真 | 不失真 |
| 文件大小 | 较大 | 较小 |
| 常用格式 | BMP、TIFF、GIF、JPEG | DXF、SWF、AI |
| 编辑软件 | Photoshop、Windows画图 | CorelDraw、Flash、Office绘图 |
三、总结 💡
- 音频:核心是采样-量化-编码,数据量计算需关注采样率、位深和声道数,格式选择需平衡音质与体积。
- 图像:核心是数字化与压缩,数据量由分辨率和像素深度决定,压缩分为无损和有损,位图与矢量图各有适用场景。
- 视频:是图像与音频的结合,容量计算需同时考虑图像帧和音频流。
本文为备考整理版,后续将补充视频、动画等其他多媒体类型的基础概念,敬请关注。