肥猫SEO论坛»论坛首页 › 行业交流 › 软件下载 › 产品经理，你要了解一些音视频技术

高端网站建设可签合同可上门沟通	站群程序定制/蜘蛛池租用	全行业SEO接单QQ1624516415	全行业SEO接单QQ1624516415
2000+站点外链一键通发	原创SEO文章代写【点击】	点击加入本站VIP 发帖免审核	广告位招租

honghu2

23万积分	0 好友	7万主题

发消息

产品经理，你要了解一些音视频技术

TA的其它主题

发表于 2021-9-26 16:12 | 查看: 530| 回复: 0

产物司理，你要领会一些音视频技能

在现今的挪动互联网期间，直播类产物咱们再认识不外了，好比看游戏直播、给美男主播打赏、听直播课程等。别的，陪伴着抖音、快手等短视频类利用的暴发，视频类产物更是时刻充溢着咱们的糊口。那末，直播类或视频的产物暗地里触及到的音视频技能常识都有哪些呢？本文将从直播类产物的根本架构动身，论述一些根本的音视频技能常识。

（音视频范畴博大高深，本文仅从一个PM的角度动身，总结一些最根基的内容）
1、直播的根本架构
一个直播功效通用的根本架构触及三个部门，即音视频收集端、云办事端和音视频播放端。

以下图，是一个APP直播功效的架构：

从上图中咱们可以看到，每个部门都有各自要处置的一些事情。

整体来讲，视频直播类功效的总体流程包含如下内容：
音视频收集音视频处置音视频编码和封装推流流媒体办事器处置拉流音视频解码音视频播放
在详细领会每一个流程以前，咱们先从音视频的根基常识入手。
2、音视频技能根本1. 音频
声音：

咱们日常平凡在手机或电脑里听到的音频，是已数字化了的音频摹拟旌旗灯号。最初，这些音频都是始于物寻欢理的声音。

中学物理都学过，声音是波，是经由过程物体的振动发生的。

声波具备三要素：
调子：也叫音频，频率越高，波长就会越短，而低频声响的波长则较长。以是如许的声音更易绕过停滞物。能量衰减就越小，声音就会传布的越远；音量：就是振动的幅度。用分歧的力度敲打桌面，声音的巨细必将产生变更。在糊口中，咱们用分贝描写声音的响度；音色：在一样的频率和响度下，分歧的物体发出的声音纷歧样。波形的外形决议了声音的音色。由于分歧的介质所发生的波形分歧，就会发生纷歧样的音色。
摹拟旌旗灯号的数字化进程：

摹拟旌旗灯号的数字化进程，就是将摹拟旌旗灯号转换为数字旌旗灯号的进程，包含采样、量化和编码。

咱们可以经由过程下图理解这一进程：

采样：可以理解为在时候轴上对旌旗灯号举行数字化。通经常使用采样率来包管必定频率范畴内的声音可以被数字化乐成，好比：采样频率通常为44.1KHZ，指的就是1秒会采样44100次。量化：指的是在幅度轴上对旌旗灯号举行数字化，就是声音波形的数据是几多位的二进制数据，单元是bit。好比：经常使用16bit的二进制旌旗灯号来寄存一个采样，这又叫做量化级。量化级是数字声音质量的首要指标，凡是将声音描写为24bit（量化级）、48KHZ（采样率）。编码：依照必定的格局记实采样和量化后的数据。音频编码的格局有不少种，凡是所说的音频裸数据指的是脉冲编码调制(PCM)数据。PCM音频流的码率可以用来描写PCM数据，它的计较公式是：采样频率*采样巨细（量化级）*声道数（单声道、双声道和多声道）。
经由过程上述的流程，就实现了音频旌旗灯号的数字化进程。转为数字旌旗灯号以后，便可以对这些数据举行存储、播放、复制获得等其他操作了。

音频编码：

上面咱们说到了，编码就是依照必定的格局记实采样小圈和量化后的数据，那末到底为甚么必要编码呢？

收集和量化后的数据是很是大的，从存储或收集及时传布的角度来讲，这个数据量都太大了。对付存储和传输都是很是具备挑战的，以是咱们必要经由过程编码来举行紧缩。

紧缩编码的指标是紧缩比，紧缩比凡是是小于1的。

紧缩编码算法分为2种：有损紧缩和无损紧缩。
无损紧缩：解压后的数据可以彻底回复复兴。在经常使用的紧缩格局。用的较多的都是有损紧缩。有损紧缩：解压后的数据不克不及彻底回复复兴，会丢失一部门信息。紧缩比越小，丢失的信息就会越多，旌旗灯号还原的失真就会越大。
紧缩编码的本色就是紧缩冗余的旌旗灯号，冗余旌旗灯号就是指不克不及被人耳感知的旌旗灯号，包含：人耳听觉范畴以外的音频旌旗灯号和被袒护掉的音频旌旗灯号。旌旗灯号的遮掩可以分为频域遮掩和时域遮掩，关于旌旗灯号的遮掩大师可以自行baidu一下，这里就不做过量论述了。

那末，音频紧缩编码的经常使用格局都有哪些呢？

重要包含：WMA编码；MP3编码；AAC编码，这个是如今比力热点的有损紧缩编码技能，也是今朝在直播或小看频中经常使用的编码格局；OGG编码等。
2. 视频
数字视频：

咱们日常平凡在手机或PC上看到的视频，是由内容元素、编码格局和封装容器组成的。

内容元素：包含图象（Image）、音频（Audio）和元信息（Metadata）。编码格局：包含视频经常使用编码格局H264，和音频经常使用编码格局AAC。封装容器：这就是常见的文件格局，如MP四、MOV、FLV、RMVB、AVI等等。
图象：

图象是人对视觉感知的物资重现。三维图象的工具包含：深度、纹理和亮度信息，二维图象包含纹理和亮度信息，咱们可以简略的把纹理就理解为图象。

说了图象的观点，如今来讲下视频：视频是由多幅图象组成的，是一组持续的图象。一个根基的数字视频，根基是经由过程“收集——处置——显示”构成的。

编码格局：

上面咱们说到了音频的编码，视频一样是存在编码的进程的。视频编解码的进程是指对数字视频举行紧缩或解紧缩的进程。

在举行视频的编解码时，需要斟酌如下身分的均衡：视频的质量、用来暗示视频所必要的数据量（凡是称之为码率）、编码算法息争码算法的繁杂度、针对数据丢失和毛病的鲁棒性、编纂的便利性、随机拜候、编码算法设计的完善性、端到真个延时和其它一些身分。

经常使用的视频编解码方法有H.26X系列和MPEG系列，而今朝最经常使用的视频编码格局是H.264，它的长处是低码率、图象质量高、容错能力强、收集顺应性更强，而且已被遍及利用于及时视频利用中。

再先容一些关于H.264的常识：

在H.264中，图象是包含帧、顶场和底场的，一副完备的图象就是一帧。

当收集视频旌旗灯号时，若是采纳逐行扫描，则每次扫描获得的旌旗灯号就是一副图象，也就是一帧。若是采纳隔行扫描（奇、偶数行），则扫描下来的一帧图象就被分为了两个部门，这每部门就称为场，按照顺序分为：顶场（同样成为偶数场）和底场（同样成为奇数场）。

帧和场的观点又带来了分歧的编码方法：帧编码和场编码。逐行扫描合适于活动图象，以是对付活动图象采纳帧编码更好；而隔行扫描合适于非活动图象，以是对付非活动图象采纳场编码更抱负。

别的，每帧图象可以分为多个片，每个片由宏块组成，而每一个宏块又是由子块所组成的。

封装格局：

视频的封装格局可以当作是一个装载着视频、音频、视频编解码方法等信息的容器。一种视频封装格局可以支撑多种的视频编解码方法，好比：QuickTime（.MOV）支撑几近所有的编解码方法，MPEG（.MP4）也支撑大部门的编解码方法。

在PC上，咱们常常会利用.MOV的视频文件。经由过程以上的先容，咱们就晓得了，这个视频的文件格局是.MOV，封装格局是QuickTime File Format，可是咱们没法晓得它的视频编解码方法。若是咱们想要专业的去描写一个视频，可以描写成：H.264/MOV的视频文件，这就是说它的封装方法是QuickTime File Format，文件格局是.MOV，编码方法是H.264。

H.264：

H.264是一种高机能的视频编解码技能，是由“国际电联”和“国际尺度化组织ISO”结合组建的结合视频组配合制订的新的数字视频编码尺度。

咱们在上面已说到了H.264编码技能的上风，咱们接下来看一下H.264所触及的关头技能：

咱们起首要晓得，不管是视频或音频编码，其目标都是紧缩。视频编码的目标，是抽掏出冗余信息，这些冗余信息包含：空间冗余、时候冗余、编码冗余、视觉冗余和常识冗余。

基于此，H.264的紧缩技能触及：

a）帧内展望紧缩，解决的就是空间数据冗余问题。空间冗余数据就是图里数据在宽高空间内包括了不少色彩和亮光，人的肉眼很难发觉的数据。对付这些数据，咱们是可以直接紧缩掉的。

帧内紧缩对应的是I帧——即关头帧。那末甚么是I帧呢？网上教程中有一个经典的例子，若是摄像头对着你拍摄，1秒以内现实你产生的变革是很是少的。摄像机一般1秒钟会抓取几十帧的数据，好比像动画，就是25帧/s，一般视频文件都是在30帧/s摆布。那些对付一组帧来讲变革很小的，为了便于紧缩数据，就将第一帧完备的保留下来。若是没有这个关头帧后面解码数据是完成不了的，以是I帧是出格关头的。

b）帧间展望紧缩，解决的是时候数据冗余问题。在上面的例子中，摄像头在一段时候内所捕获的数据没有较大的变革，咱们针对这一时候内的不异的数据紧缩掉，这就是时候数据紧缩。

帧间紧缩对应的是P帧和B帧。P帧是向前参考帧，紧缩时只参考前一个帧。而B帧是双向参考帧，紧缩时即参考前一帧也参考后一帧。

c）整数离散余弦变更（DCT），将空间上的相干性变成频域上无关的数据然落后行量化。

d）CABAC紧缩：无损紧缩。

H.264除上述的关头技能，另有几个首要的观点必要领会：
GOF：一组帧，就是一个I帧到下一个I帧，这一组的数据。包含B帧/P帧，咱们称为GOF。SPS和PPS：SPS和PPS是GOF的参数，SPS是寄存帧数，参考帧数量，解码图象尺寸，帧场编码模式选择标识等。而PPS是寄存熵编码模式选择标识，片组数量，初始量化参数和去方块滤波系数调解标识等。
在举行视频解码的时辰，接管到一组帧GOF以前，咱们起首收到的是SPS/PPS数据，若是没有这组参数的话，是没法举行解码的。

是以，若是在解码时产生毛病，起首要查抄是不是有SPS/PPS。若是没有，就要查抄是由于对端没有发送过来仍是由于对端在发送进程中丢失了。

加倍具体的H.264编码道理这里就不做先容了，大师感乐趣的可以上彀查阅一下资料，好比：宏块分组划分、宏块查找、帧内展望、DCT紧缩和H.264的码流布局等常识。
3、直播流程胪陈
经由过程上面的先容，咱们已领会音视频一些根基的常识。接下来，咱们一块儿再描写一遍直播类利用的总体流程。
1. 音视频收集
在音视频收集阶段会包含：音频收集和图象收集。

在音频收集时，除上面咱们说到的采样率、量化级数和声道数参数外，还必要音频帧。

音频跟视频很纷歧样，视频每帧就是一张图象，而从声音的正玄波可以看出：音频数据是流式的，没有明白的一帧帧的观点。在现实的利用中，为了音频算法处置/传输的便利，一般商定俗成取 2.5ms~60ms 为单元的数据量为一帧音频。

这个时候被称之为“采样时候”，其长度没有特此外尺度，它是按照编解码器和详细利用的需求来决议的。

若是某音频旌旗灯号是采样率为 8kHz、双通道、量化级数是16bit，采样时候是20ms，则一帧音频数据的巨细为：8000 * 2 * 16bit * 0.02s = 5120 bit = 640 byte

在图象收集中，收集的图片成果会组合成一组持续播放的动画，即组成视频中可肉眼旁观的内容。

图象的收集进程重要由摄像甲等装备拍摄成 YUV 编码的原始数据，然后颠末编码紧缩成 H.264 等格局的数据分发出去。在图象收集阶段，触及的重要技能参数包含：图象传输格局快猫视频、图象格局、传输通道、辨别率和采样率。

在音视频的收集阶段，经常使用的收集源包含摄像头，好比手机的先后置摄像头；游戏直播中利用的屏幕录制；和电视节目中视频文件的直接推流。
2. 音视频处置
音视频处置会分为：视频处置和音频处置。

视频处置包含：美颜、滤镜、脸部辨认、水印、剪辑拼接等。音频处置包含：混音、降噪、声音殊效等。

下面咱们扼要描写一下美颜和视频水印的基来源根基理：

美颜的重要道理是经由过程【磨皮】+【美白】来到达总体美颜结果的。磨皮的技能术语是去噪，也就是对图象中的噪点举行去除或模胡化处置，常见的去噪算法有均值模胡、高斯模胡和中值滤波等。这个环节中也触及到人脸和皮肤检测技能。

视频水印包含播放器水印和视频内嵌水印两种方法。对付播放器水印来讲，若是没有有用的防盗办法，对付没有播放鉴权的推流，客户端拿到直播流以后可以在任何一个不带水印的播放器内里播放，是以也就落空了视频庇护的能力。以是，一般来讲会选择视频内嵌水印的方法吊水印，如许，水印就会内嵌到视频以内，在视频播放的进程中延续显示。

再多聊一些，视频内嵌水印也会利用在软件中，软件中播出企业内部版权庇护的动画段视频时，会利用到内嵌水印的技能。
3. 音视频编码和封装
音视频的编码和视频的封装在上述根本常识部门已先容过了，这里再也不赘述。

在这里说一下编码器的常识。上文中咱们领会了H.264的编码技能，编码流程是要基于编码器举行的。

编码器的重要流程是：帧内展望（去除空间冗余）/帧间展望（去除时候冗余）——变更（去除空间冗余）——量化（去除视觉冗余）——熵编码（去除编码冗余）。经由过程该流程，便可完成音视频的编码步调。
4. 推流
推流就是将处置过的音频和视频数据经由过程流媒体协定发送到流媒体办事器。

推流协定：

推流所遵守的协定有RTMP、WebRTC和基于UDP的私有协定。
RTMP协定是基于TCP协定的，RTMP 是今朝主流的流媒体传输协定，遍及用于直播范畴，市道市情上绝大大都的直播产物都采纳了这个协定。可是，因为基于TCP协定，传输本钱高，在弱网情况下丢包率高，不支撑阅读器推送。WebRTC是一个支撑网页阅读器举行及时语音对话或视频对话的 API，重要利用于视频集会。它的主流阅读器支撑度高，而且底层基于SRTP和UDP，弱网环境优化空间大。基于UDP的私有协定。有些直播利用会利用 UDP 做为底层协定开辟本身的私有协定，由于 UDP在弱网情况下的上风经由过程一些定制化的调优可以到达比力好的弱网优化结果，可是开辟成太高。
CDN：

推出去的流媒体要给各个地舆位置的观众看，那末这里就必要CDN收集了。CDN就是为领会决用户拜候收集资本慢而发生的技能。

CDN包含边沿节点、二级节点和源站。内容供给方可以将内容放到源站上，用户从边沿节点获得数据，而CDN的二级节点则用于缓存，减轻源站压力。

在直播范畴中，CDN要支撑的办事以下：
流媒体协定的支撑。好比RTMP等；首屏秒开。从用户点击到播放节制在秒级之内；1~3 延迟节制。从推流端到播放端，延迟节制在 1~3 秒之间；全世界全网智能路由。可以操纵全部CDN收集内的所有节点为某一单一用户办事，不受地区限定。5. 流媒体办事器处置
流媒体办事器要做的事变包含：数据分发（CDN）、支撑上述CDN的一些办事、及时转码和内容的检测（鉴黄）等。
6. 拉流
拉流就是客户端从流媒体办事器上拉取得到上述步调中的音视频数据。同理，这个进程也是要基于上述的协定和CDN。
7. 音视频解码
在上述H.264编码的先容中，说到了SPS/PPS是解码必备的数据。此步调就是必要对拉流下来已编码的音视频数据举行解码。

解码进程就是编码的逆进程，这个进程包含：熵解码、变更解码、展望解码。

H.264规范划定领会码器的布局，解码的进程大要以下：以宏块为单元，挨次举行熵解码、反量化、反变更，获得残差数据。再连系宏块内里的展望信息，找到已解码的被参考块，进而连系已解码被参考块和本块残差数据，获得本块的现实数据。宏块解码后，组合出片，片再进而组合出图象。

这里要阐明的是：若是H264码流中I帧毛病或丢失，就会致使毛病通报，零丁的P帧或B帧是完成不领会码事情的。I帧所保存的是一张完备的视频帧，是解码的关头地点。
8. 音视频播放
在完成为了音视频数据的解码后，便可以经由过程硬件装备（手机或PC）上的播放器对音视频文件举行衬着播放了。

那末，上述架构图中的信令办事器是干甚么的呢？

——信令办事器是用来处置主播端和用户真个一些信令指令的。

在收集中传输着各类旌旗灯号，此中一部门是咱们必要的（比方：打德律风的语音，上彀的数据包等等），而此外一部门是咱们不必要的（只能说不是直接必要）它用来专门节制电路的，这一类型的旌旗灯号咱们就称之为信令（摘自baidu百科）。也就是说，信令是指通讯体系中的节制指令。

咱们基于此，再来描写一下这全部的流程：
主播同享端倡议一个信令，好比：建立房间（或谈天、发送礼品等），达到信令办事器；信令办事器处置而且建立一个房间，同时返回给主播同享端一个流媒体云的地点。接下来，主播同享端收集数据（音视频的收集、处置和编码封装流程）构成RTMP流推送到CDN收集（推流）。观众要举行旁观时，客户端会发送信令到信令办事器，信令办事器将该观众参加到主播的房间中，同时也会返回一个流媒体云的地点（该地点就是以前主播真个流媒体云地点）。客户端拿到此流媒体云地点后，就会到流媒体云办事器拉取到该媒体流（拉流息争码），从而看到要旁观的直播节目（播放器播放）。
好了，以上就是直播类利用的一个最根基的架谈判流程了。
4、总结
本文经由过程直播类利用的架构，先容了一些音视频技能方面的常识，而且胪陈了直播类功效的总体流程。

音视频技能是一个高妙的范畴，本文只是做了一些根本常识的总结，若是大师想要深刻领会更多的音视频技能，我举荐大师可以进修一下雷神（雷霄骅）的博客。
#专栏作家#
流年，人人都是产物司理专栏作家。互联网产物设计师，4年互联网产物设计履历。长于用户体验设计，喜好研讨需求功效暗地里的技能实现方法；在成为综合型产物设计师的门路上不竭尽力进步！

本文原创公布于人人都是产物司理。未经允许，制止转载

题图来自Unsplash，基于CC0协定

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册