未来终归过往，愿我们开心得久一点——录音艺术的创作维度（3D）（发布于2018.1.10）学术资讯

来源：影视技术论坛

Channel-Based、Object-Based、Scene-Based、Ambisonics、HOA、Binaural、HRTF、HRIR、BRIR、Spatial、VBAP、DBAP、VBIP……这些在实验室里存在的声学概念及数学模型，当它们走过若干年的科研阶段，进入商业领域，即成为了三维声、全景声、沉浸声等等这些高级词汇的重要组成部分。

从启蒙开始，我们便用我们的有限去探究无限，通过自己时空的限制去表达无穷，这可能就叫做追求。我们探索声音的真，从根本上说，这个追求一直就没有改变过。

1．对于声音来说，三维空间的"真"最难以复制，科学家们想尽一切办法去还原它的真实，尽管有时候一点小伎俩便可以骗过人耳。实现空间的三维，可以通过两种方式——Binaural（双耳）方式和Multi-Channel（多声道）方式。Binaural Recording（双耳录音/仿真头录音）由来已久，它可以复制一个较为真实的三维空间感。我们所感知的声音是经过了躯体、头部、耳廓和耳道染色后的声音，这是我们辨别声源的生理基础，在声学上，用HRTF（头部相关传输函数）表示。我们可以在声音采集阶段还原由于人头结构对原始声音造成的影响，以这样的方式录制得到了模拟人耳听到的声音，并最终通过耳机重放。BinauralRecording在录音阶段，把真实的HRTF直接记录下来，这样得来的声场是一个最接近于Binaural传声器位置处人耳感知的三维声场，是一种对于空间还原相对完美的方式，要比扬声器组合还原出来的声场真实得多。但这种方式的不足在于它只能通过耳机重放才可以得到较好的效果，以避免由于外放经过人头结构滤波所造成的二次HRTF染色。

Multi-Channel方式，是我们在声音拾取和重放时应用的最多的一种方式。对于三维声来说，一般的多声道拾音和多音箱重放都属于这种方式。通常说来，声道数量越多，音箱数量越多，还原出来的三维声场在皇帝位的表现越好。Multi-Channel方式对于听音位置的要求较高，偏离皇帝位，听感就会有劣化的趋势。

2.如前段所述，HRTF反映了原始的声音与人耳感知到的声音的差别。用仿真头话筒，拾取ImpulseResponse（脉冲响应）信号，可得到类似Convolution（卷积）IR采样的一系列数据，被称为HRIR（人头相关脉冲相应），把它和原始的IR采样信号进行比对，就可以得到HRTF信息了。HRTF算法可以把Multi-Channel方式虚拟成近似Binaural方式，通过耳机收听。

也就是说，对于声源，通过Binaural方式拾取后，可以通过Binaural方式重放；通过Multi-Channel方式拾取后，经过HRTF虚拟，也可以通过近似Binaural方式重放。耳机里的声音必须是经过人体生理结构染色过的声音，才能被称为Binaural。

但是，Binaural方式得来的HRTF是固定的，当我们转动头部，声音和我们的相对位置不会改变，它也会随着我们头部的运动而运动。这和实际情况并不相符。QuadBinaural（四重双耳）方式，可以在水平角度上对于头部转动作出反馈，但四个方向之间的连接部分会有较为明显的不连续感和相位问题，高度信息也无法较好的反映。目前，VR（虚拟现实）设备通过激光、陀螺仪等等方式进行头部追踪，达到了仿真的效果。

当Binaural方式和头部运动反馈结合在一起，便形成了SpatialAudio（空间音频）。SpatialAudio也成为了虚拟现实技术的音频技术核心。

3.传统的环绕声和三维声在目前看来是Channel-Based（基于声道）的概念，声源信息通过传统Panning算法，与输出声道产生直接关联。在三维声模式下，扬声器数量不尽相同，当重放的硬件环境产生变化，很难仅仅通过简单的上下变换来得到相对理想的收听效果。Object-Based（基于对象）的概念较好的解决了这个问题。

我们可以把三维声场视作一个直角坐标系或极坐标系下的虚拟空间，这个空间里的任意一个点声源所处的位置都可以通过特定的Panning算法用一组数值来表示，比如直角坐标系下的（X，Y，Z）。把这些数值写进元数据，它就可以从制作端继承到重放端。对于某一时刻的某一个点声源来说，（X，Y，Z）的值是唯一的，扬声器配置在不同的环境下却是不唯一的。重放端解码器只要能够通过元数据识别到（X，Y，Z），再结合重放端实际的扬声器配置，就可以定位声源。声源与扬声器之间是一种相对智能的间接关联。例如，当我们在制作端，把声源定位在中央声道，当重放端没有配置中置音箱的时候，根据（X，Y，Z）数学模型，它会被等量的分配给LR声道，形成虚中声源，以此类推。

Object-Based是完全的点声源的概念，理论上说，应用Object-Based的概念，无论三维声环境下的扬声器数量和位置如何变化，都可以相对准确（数学模型下的准确）的定位声源。这和环绕声模式下的上下变换有本质区别。

不仅如此，Object-Based还提供了另一种可能性，即声音的可交互性。当一个声源被定义为Object，它就变得相对独立，不和输出声道产生直接联系。如果在制作端，混音师将一些特定Object的特定声音参数（如音量、声像等等）开放给用户，用户便有可能在终端自主决定这个Object的参数调整。打个比方，在Channel-Based模式下，如果我们不想听体育赛事的解说，只想安静的看比赛，我们只能关掉中置扬声器，但如果中置扬声器里还有别的声音信息存在，也会一并消失。在Object-Based环境下，如果混音师将解说定义为一个Object，并把它通过元数据开放给用户，用户便可以自主调整解说声音的音量大小甚至将其关闭，而不影响其他声音，以此类推。

4. Scene-Based（基于场景）的方式目前更多的应用于VR领域。其核心技术源于Ambisonics（高保真球体环绕声）概念，数学模型基于极坐标系。四声道的FOA（First Order Ambisonic，一阶高保真球体环绕声），是应用得最多的Ambisonics方式。四个心型指向膜片分别指向左前、左后、右前、右后，这四声道信息被称为A-Format（A格式），把这四个声道进行叠加和反向叠加，即得到B-Format（B格式）。B-Format就像一个扩展的MS制式，除了一个无方向的全声场信息W之外，还有X，Y，Z三个坐标方向上的声音信息，相当于三个MS叠加。因此，来自于传声器任何方向的声音信息都能够在B格式的重放中被听者感知到。三阶以上即可称为HOA（高阶高保真球体环绕声），阶数越高，还原的特定声场越接近于真实的特定声场，在Multi-Channel模式下，皇帝位的范围也相对较大。

同样，Ambisonics在Multi-Channel方式下不与输出声道扬声器产生直接关联，理论上说，它可以解码任何扬声器组合。传统的扬声器组合通常是“前向偏置”的，来自侧面或后置扬声器的信息不与前方的声音等效。相比之下，Ambisonics无选择性的反映了整个三维球体声音场景。但Ambisonics也有一些不足，它只能表现以特定传声器为圆心位置的一个三维场景信息，当画面切换到另一场景，就基本不适用了；同时，如果想要较好的表现场景，就需要较高阶来支撑，这会使得通道占用量呈近似平方倍增长[（N+1）²]。

在这里，Scene-Based没有点声源的概念，它是完全的整体场景概念。这和Object-Based截然不同。Ambisonics已经存在了半个世纪，但在商业领域一直没有取得太大成功，由于VR的兴起，又为Ambisonics带来了新的生机。

未来的音频技术领域，很可能是Channel-Based、Object-Based、Scene-Based共存的时代，也是Multi-Channel、Binaural、Spatial共存的时代，它们相互组合，为终端用户带来多种选择。灵活的、可交互的声音接收方式，成为下一代用户视听体验的一个重要特征。

5．如今，各个领域的音频技术相互渗透融合，并行高速发展。科研工作者的研究成果被声音制作者充分应用，逐渐在商业领域体现出它的价值。在大众认知的范畴，声音越来越难以“作为独立的审美客体而存在”，它越来越多的和视觉等其它艺术形式捆绑销售，一同呈现。

当我们置身于声音组成的三维空间，体会着被声音包裹的感觉；当我们带上VR眼镜，切断了我们和真实世界的联系。此刻，我们到底是沉浸在声音中还是迷失在声音里，声音到底和我们的内心越来越近还是我们与她渐行渐远。我们是否过于关注声音本身，而忘记了声音到底要表达什么。

我们会越来越多的想起过去的年代，想起那个有些落后，却很纯粹、真实、温暖的年代。想起VU表的年代，想起没有Undo和Tune的年代，也想起那些虽然繁琐但颇有仪式感的收听方式。

声音仅仅是承载内容的载体之一，而且并非最重要的载体，可她却无时无刻不在牵动着我们的神经。我们会用一切美好的词汇去形容声音，尽可能的让她变成我们所希望的样子。我们是不是太较真儿也太顽固了，在干净的数字时代谈论脏模拟，在高规格的时代谈论低格式，在音量最大化的时代谈论动态，在压缩的时代谈论音质，在快销的时代谈论经典。这到底是对往昔的留恋，还是对未来的恐惧。也许是因为自然规律，让我们对华丽的外表失去兴趣；也许是因为我们上了年纪，为自己的固步自封找一个借口。

科技的进步总是好的，它会涤荡掉新时代不需要的旧事，也会把当下作为未来的给养，为未来孕育新生命。声音制作领域的更新越来越快，分工越来越细密，纵向和横向的发展联系也越来越深远。高规格的制作需要高规格的理论基础和实践经验，声音有时候只作给懂的人听。

在这个繁花锦绣的年代，愿我们在忙碌的工作之余放慢些脚步，回头看看来时的路，在片刻宁静中也可以很开心。

来源：ysjsforum 影视技术论坛

原文链接：http://mp.weixin.qq.com/s?__biz=MzA3ODY0NzYwOA==&mid=2650014063&idx=3&sn=e5ed686b76792928fc58d9eccbf471ec&chksm=87bf3938b0c8b02e2e9f4eb3912ee31b8e532c766bb799079d81d7b4e2fbb87e85c96d93216a&scene=27#wechat_redirect

电话：（010）86409582

邮箱：kejie@scimall.org.cn