当前位置:网站首页>音视频学习(六)——PCM音频基础
音视频学习(六)——PCM音频基础
2022-07-13 19:04:00 【却道天凉_好个秋】
1. PCM简介
PCM(Pulse Code Modulation),脉冲编码调制。人耳听到的是模拟信号,PCM是把声音从模拟信号转化为数字信号的技术。原理是用一个固定的频率对模拟信号进行采样,采样后的信号在波形上看就像一串连续的幅值不一的脉冲(脉搏似的短暂起伏的电冲击),把这些脉冲的幅值按一定精度进行量化,这些量化后的数值被连续的输出、传输、处理或记录到存储介质中,所有这些组成了数字音频的产生过程(抽样、量化、编码三个过程)。
PCM(Pulse Code Modulation,脉冲编码调制)音频数据是未经压缩的音频采样数据裸流。
自然界的音频都是模拟信号,要在计算机中模拟出来,必须转成数字信号,这就是模数转换。
下面是声音波形的模拟信息:

首先对声音按照一定精度的采样(比如上图0.5一个采样点,常见采样频率为44.1kHZ,16kHZ等),采样完成,对声音进行一定精度的量化,得到量化后的数字信号

- 将量化后的数字信号从十进制转二进制得到二进制方波

2. 采样频率、量化精度(采样位数)和声道数
- 采样频率是设备一秒钟内对模拟信号的采样次数,在主流的采集卡上分为:(8Khz的电话采样率就可以达到人的对话程度)
- 22.05KHz:无线电广播;
- 44.1KHz:音频 CD,MP3等;
- 48KHz:miniDV、数字电视、DVD、电影和专业音频;
- 人耳能够感觉到的最高频率为20kHz,要满足人耳的听觉要求,则需要每秒进行40k次采样,即40kHz。我们常见的CD采样率为44.1kHz。(硬件的扬声器最高是16KHz,则手机MIC采样率就不用太高,节省传输带宽);
- 采样位数比如8bit(现在少见)、16bit(常用)和24bit,指的是描述数字信号所使用的位数;
- 声道数:声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号;
- 单声道:采样数据为8位的短整数;
- 双声道:采样数据为16位的整数,高八位(左声道)和低八位(右声道)分别代表两个声道;
- [时长]s * [采样率]Hz * [采样位数]bit * [声道数] / 8 = [文件大小]byte。某音频信号是采样率为8kHz、声道数、位宽为16bit,时长为1s,则音频数据的大小为:1 * 8000 * 16 *2 = 256000 bit / 8 = 32000 byte / 1024 = 31.25 KB;
3. 音频帧
音频跟视频很不一样,视频每一帧就是一张图像,音频数据是流式的,不同的编码格式各自不同的编码标准,拿PCM和MP3做一个对比。PCM因为没有压缩,根据采样率位宽等数据可以得到每秒的音频数据,并不需要帧的概念;MP3则是因为压缩后信息比较多,则有了类似H264的帧概念,每一个帧都有一个帧头,有兴趣可以详见如下,有很详细的MP3的帧解析:MP3格式音频文件结构解析
4. 录播
- 播放音乐时,应用程序从存储介质中读取音频数据(MP3、WMA、AAC…),经过解码后,最终送到音频驱动程序中的就是PCM数据。反过来,在录音时,音频驱动不停地把采样所得的PCM数据送回给应用程序,由应用程序完成压缩、存储等任务。所以,音频驱动的两大核心任务就是:
- playback:如何把用户空间的应用程序发过来的PCM数据,转化为人耳可以辨别的模拟音频;
- capture:把mic拾取到得模拟信号,经过采样、量化,转换为PCM信号送回给用户空间的应用程序;
5. 音频混音
声音是由于物体的振动对周围的空气产生压力而传播的一种压力波,转成电信号后经过抽样,量化,仍然是连续平滑的波形信号,量化后的波形信号的频率与声音的频率对应,振幅与声音的音量对应,量化的语音信号的叠加等价于空气中声波的叠加,所以当采样率一致时,混音可以实现为将各对应信号的采样数据线性叠加。而问题的关键就是如何处理叠加后溢出问题。
6. PCM音频采样数据处理
边栏推荐
- Do not refresh the page content, change the browser access address URL
- 【无标题】
- [play with fpga8 in simple terms ----- metastable]
- [today in history] July 13: the father of database passed away; Apple buys cups code; IBM chip Alliance
- 【Day 2】机器阅读理解——常见机器阅读理解模型(上)
- Why do more and more people want to take the PMP project management certification?
- Development of management
- HCIP第五天笔记
- 集合系列开篇:为什么要学集合?
- 判断两棵二叉树是否同构,三种实现方式(递归、队列、堆栈)
猜你喜欢
![[play with fpga8 in simple terms ----- metastable]](/img/93/8d85568d6cc264b5d0b7d91150cd76.png)
[play with fpga8 in simple terms ----- metastable]

modular

第三讲:最短距离

Huawei switch SEP double half ring design scheme and detailed configuration steps

How to solve the problem that the computer shared file cannot be opened

Win11本地用户和组怎么管理?Win11创建用户管理员的方法

Binomial reactor principle and analysis

【无标题】

面试诈骗:竟然还有靠面试挣钱的公司

Based on Huawei WAC dual VRRP hot backup, a three-layer network tunnel forwarding mode solution is attached
随机推荐
【历史上的今天】7 月 13 日:数据库之父逝世;苹果公司购买 CUPS 代码;IBM 芯片联盟
Fibonacci heap - Analysis and Implementation
有没有完全自主的国产化数据库技术
modular
【虹科技术】网络万用表在数据中心的应用
Otacle表查询
js中树形结构的深度遍历与广度遍历
Hcip fourth day experiment
Persistence mechanism, expiration strategy and elimination strategy of redis
Shutter renderflex overflowed by pixels on the bottom keyboard pop-up warning exception
babylon.js高度图
如何报考PMP项目管理认证考试?
电脑共享文件打不开要如何解决
Séquence de traversée de l'ordre initial et de l'ordre moyen pour déterminer un arbre binaire (restauration de l'arbre binaire)
Jerry's VM will cause the nixie tube to flash when sorting [chapter]
Focusing on data center innovation, what new forces does NVIDIA DOCA 1.3 bring
1. Create SAP OData project in SAP ABAP transaction code segw
进程间通信(非常实用)
Flutter RenderFlex overflowed by pixels on the bottom键盘弹出警告异常
Password key hard coding check