多媒体技术-音频与图像基础

本文接续上篇,整理多媒体技术中音频、图像的核心概念、计算与格式,适合备考与技术入门查阅。


📝 核心公式

  • 文本:1汉字 ≈ 2字节(UTF-8)
  • 图像:大小 = 分辨率 × 色深 ÷ 8
  • 音频:大小 = 码率(kbps) × 时长(秒) ÷ 8
  • 视频:大小 = 码率(Mbps) × 时长(秒) ÷ 8

📊 典型大小对比

格式 示例场景 近似大小 量级
TXT 100万字中文文本 ≈ 2 MB 文本级
BMP 1024×768,24位色位图 ≈ 2.25 MB 图像级
JPG 1024×768,中等质量图片 50 KB~200 KB 图像级
PNG 1024×768,32位色透明图片 200 KB~500 KB 图像级
MP3 10分钟,128kbps音频 ≈ 93.75 MB 音频级
WAV 10分钟,44.1kHz/16位立体声 ≈ 100.8 MB 音频级
MPEG 10分钟,1Mbps视频 ≈ 75 MB 视频级
MP4 10分钟,2Mbps视频 ≈ 150 MB 视频级

⚡ 快速判断技巧

  1. 体积排序:文本 < 压缩图片 < 无损图片 < 音频 < 视频
  2. 同类型对比
    • 图片:BMP > PNG > JPG
    • 音频:WAV > MP3
    • 视频:分辨率/码率越高,体积越大
  3. 高频考点经验值
    • 100万字TXT ≈ 2MB
    • 1分钟128kbps MP3 ≈ 9.4MB
    • 1分钟1Mbps MPEG ≈ 7.5MB

✅ 真题答案

下列文件中数据量最小的是:
A. 100万字TXT B. 1024×768×24位BMP C. 10分钟MP3 D. 10分钟MPEG
答案:A


多媒体技术-音频与图像基础

一、音频基础 🎧

音频是多媒体中承载声音信息的重要载体,其核心是将模拟声音信号数字化。

1. 音频相关概念

  • 声音带宽:声音音波的频率范围。人耳可听范围为 20Hz–20kHz,超过20kHz为超声波,小于20Hz为次声波;日常说话频率范围约 300–3400Hz,乐器频率范围与人耳一致。
  • 采样:将模拟信号在时间上离散化的过程,核心参数为采样频率采样精度
    • 奈奎斯特特定理:采样频率需为声音最高频率的2倍,才能保证基本不失真。
  • 模拟音频信号数字化:需经过 采样 → 量化 → 编码 三个步骤,最终将模拟声音转换为二进制数字编码。

2. 音频数据量计算

核心公式

  • 码率(bit/s) = 采样频率 × 量化位数 × 声道数
  • 数据量(字节) = (采样频率 × 量化位数 × 声道数 × 时间) / 8
  • 数据量(MB) = 数据量(字节) / (1024 × 1024)

示例计算

  • CD唱片码率:44.1 kHz × 16 bits × 2 = 176.4 kbit/s = 22.05 KB/s
  • 1小时数据量:22.05 KB/s × 3600 = 79380 KB ≈ 77.52 MB
  • 题目示例:采样频率96kHz,量化位数24bit,双声道,5分钟
    1
    2
    数据量 = (96000 × 24 × 2 × 300) / 8 = 172,800,000 字节
    172,800,000 / (1024×1024) ≈ 164.79 MB

3. 常见音频文件格式

格式 特点 典型应用
MP3 有损压缩,文件小,音质较好 网络音乐、流媒体
AAC 高级音频编码,低码率下音质优于MP3 Apple设备、iTunes
WAV 微软RIFF标准,无压缩/少压缩,音质高 Windows系统、专业音频
FLAC 无损压缩,音质与原音频一致 发烧友、专业音频处理
AIFF 苹果音频交换格式,兼容性好 Mac平台
OGG 开源编码,支持有损/无损压缩 网络流媒体
MIDI 非波形采样,存储音乐演奏指令,文件极小 电子音乐、游戏音效

二、图像与图形基础 🖼️

图像是计算机中视觉信息的核心载体,分为位图和矢量图两大类。

1. 图像三要素

  • 亮度:颜色的明亮程度
  • 色调:颜色的种类(红、绿、蓝等)
  • 饱和度:色彩的艳丽程度

2. 图像数字化过程

将模拟图像转换为数字图像的步骤:

  1. 扫描:将画面划分为 M×N 网格,每个网格为一个取样点
  2. 分色:将彩色图像取样点颜色分解为 RGB 三个基色
  3. 取样:测量每个取样点每个基色的亮度值
  4. 量化:对亮度值进行 A/D 转换,将模拟值转为离散数字

3. 图像在计算机中的表示

  • 灰度图像:用一个矩阵表示,矩阵元素为像素亮度值
  • 彩色图像:用一组(通常3个)矩阵表示,分别对应RGB三个颜色分量
  • 分辨率:矩阵行数为垂直分辨率,列数为水平分辨率
  • 像素深度:每个像素用多少位二进制表示,决定了颜色数量(色数 = 2^像素深度)

4. 图像数据量计算

核心公式

  • 图像数据量(字节) = 水平分辨率 × 垂直分辨率 × 像素深度 / 8
  • 或:图像数据量(字节) = 水平分辨率 × 垂直分辨率 × log₂(色数) / 8

示例计算

  • 1920×1080,24位色:1920×1080×24/8/1024/1024 ≈ 5.93 MB
  • 1920×1080,256色(8位):1920×1080×8/8/1024/1024 ≈ 1.98 MB

视频容量计算
视频容量 = 每帧图像容量 × 帧率 × 时间 + 音频数据量 × 时间

  • 示例:1280×720,24位色,30帧/秒,双声道44.1kHz/16bit音频,1分钟
    1
    2
    3
    图像数据量 = 1280×720×24/8 × 30 × 60 = 497,664,000 字节
    音频数据量 = 44100×16×2/8 × 60 = 10,584,000 字节
    总容量 = (497,664,000 + 10,584,000) / (1024×1024) ≈ 484.77 MB

5. 图像压缩

  • 压缩目的:去除信息冗余,减少存储空间,提高传输效率
  • 压缩原理:去除确定/可推知的冗余信息,保留不确定的本质信息
  • 压缩标准
    • 静态图像:JPEG(联合图片专家组)
    • 动态图像:MPEG(动态图像专家组)
  • 压缩类型
    • 无损压缩:可完全还原数据,无信息丢失,适用于医学影像、专业摄影
      • 算法:Huffman编码、算术编码、游程编码、字典编码
    • 有损压缩:牺牲部分视觉细节换取高压缩比,适用于网页、社交媒体
      • 算法:预测编码、变换编码

6. 常见图像文件格式

格式 特点 典型应用
BMP Windows标准,无压缩,兼容性极强 Windows画图、截图
TIFF 高质量,支持多页,适合印刷 扫描仪、桌面出版
GIF 无损压缩,最多256色,支持透明/动画 表情包、简单动画
JPEG 有损压缩,适用范围广,画质可调 数码相机、网页图片
PNG 无损压缩,支持透明,画质好 网页图标、透明背景图

7. 位图 vs 矢量图

属性 位图 矢量图
特征 表现色彩浓度与层次 展示清晰线条/文字
用途 照片、复杂图像 文字、商标、规划图
缩放效果 易失真 不失真
文件大小 较大 较小
常用格式 BMP、TIFF、GIF、JPEG DXF、SWF、AI
编辑软件 Photoshop、Windows画图 CorelDraw、Flash、Office绘图

三、总结 💡

  • 音频:核心是采样-量化-编码,数据量计算需关注采样率、位深和声道数,格式选择需平衡音质与体积。
  • 图像:核心是数字化与压缩,数据量由分辨率和像素深度决定,压缩分为无损和有损,位图与矢量图各有适用场景。
  • 视频:是图像与音频的结合,容量计算需同时考虑图像帧和音频流。

本文为备考整理版,后续将补充视频、动画等其他多媒体类型的基础概念,敬请关注。