HMS Core音频编辑服务，助力快速进入3D音频的世界 _HMS

从单声道、立体声、环绕声发展到三维声，音频回放技术的迭代演进是为了还原真实世界的声音。其中，三维声技术使用信号处理的方法对到达两耳的声音信号进行模拟，将声场还原为三维空间，更接近真实世界。凭借这个技术，各厂商在游戏、影视、音乐等场景中为用户创造更真实自然且沉浸的听觉体验，也实现了更好的用户订阅增长。
传统3D音频的制作需获取原始的分轨素材（如录制的人声、钢琴声等），并使用专业的数字音频工作站（DAW）和3D混音插件手工制作，因此制作周期长、生产效率低、成本高、门槛高。此外，开发者由于没有歌曲的原始分轨，因此通过传统方法进行3D音频制作的难度很大。HMS Core音频编辑服务（Audio Editor Kit）提供了音源分离（获取分轨）、空间音频渲染能力，开发者仅需输入立体声，就能快速生成3D音频内容，提升用户音频体验和提升产品竞争力！

文章插图
HMS Core音频编辑服务3D音频生成示意图
音源分离技术由于我们当前接触到的音频大都是立体声，所有音频对象（如音乐中的人声、钢琴、吉他等）都已经混合在左右两个声道当中，无法轻易地分开，更不要提将其渲染放置在不同的空间位置，因此将立体声中的特定元素分离是3D化的一个核心技术。
华为算法团队通过对大量的音乐进行深度学习建模，并结合传统信号处理能力最终实现音源分离：首先利用短时傅里叶变换（STFT）将一维的音频信号变换到二维的时频谱；然后将得到的二维的时频谱与原始的一维时域信号一起作为双流输入，通过多层的残差编码及大量数据的训练，获得目标乐器的隐空间表达；最后进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号。
上述处理过程中使用的变换矩阵和网络结构是华为的独特技术，是针对不同的乐器音色特点专门设计的，能够确保每一个乐器都能尽可能的分离完整且干净，为3D化提供足够优质的分轨素材。其涉及的核心能力包括：

音频信号特征提取：包括通过编码器从时域信号直接提取特征，以及通过短时傅里叶变换从时域信号提取时频谱特征；
深度学习模型构建：加入残差模块与注意力机制，增强对不同乐器谐波建模能力与时序关联能力；
多通道维纳滤波：结合传统信号处理的能力，通过深度学习建模预测对象与非对象功率谱关系，构建与处理滤波系数。

文章插图
音频分离技术示意图
目前，HMS Core已对外开放了12种音源分离的能力（人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐），帮助开发者快速地提取出自己想要的乐器进行3D化编辑。
空间音频渲染技术仅通过两只耳朵收听外部声音，人类为什么可分辨声源的位置呢？这是由于从声源传递到两只耳朵的声音实际上存在细微的差异，包括到达时间、接收到的能量、以及相位差等信息。而这些信息差综合体现在一系列传递函数，称为头相关传递函数（HRTF）。通过将HRTF叠加到单点声源，我们就可以虚拟出真实世界中声音的方位直达声的部分。为解决因头型、肩宽等人体体征的差异带来的HRTF因人而异的难题，我们通过大量数据的分析，设计了一套较普适的HRTF，可以让每个人都能享受到3D音频。另外为了营造空间中声音的反射、散射、干涉等物理现象，我们还通过叠加一系列的房间相应函数（RIR）来构建真实的空间，形成所谓的混响。因此，通过一系列的HRTF和RIR对声源进行滤波，我们就可以将之前分离的素材进行3D化，形成3D音乐。