从单声道、立体声、环绕声发展到三维声,音频回放技术的迭代演进是为了还原真实世界的声音 。其中,三维声技术使用信号处理的方法对到达两耳的声音信号进行模拟,将声场还原为三维空间,更接近真实世界 。凭借这个技术,各厂商在游戏、影视、音乐等场景中为用户创造更真实自然且沉浸的听觉体验,也实现了更好的用户订阅增长 。
传统3D音频的制作需获取原始的分轨素材(如录制的人声、钢琴声等),并使用专业的数字音频工作站(DAW)和3D混音插件手工制作,因此制作周期长、生产效率低、成本高、门槛高 。此外,开发者由于没有歌曲的原始分轨,因此通过传统方法进行3D音频制作的难度很大 。HMS Core音频编辑服务(Audio Editor Kit)提供了音源分离(获取分轨)、空间音频渲染能力,开发者仅需输入立体声,就能快速生成3D音频内容,提升用户音频体验和提升产品竞争力!
文章插图
HMS Core音频编辑服务3D音频生成示意图
音源分离技术由于我们当前接触到的音频大都是立体声,所有音频对象(如音乐中的人声、钢琴、吉他等)都已经混合在左右两个声道当中,无法轻易地分开,更不要提将其渲染放置在不同的空间位置,因此将立体声中的特定元素分离是3D化的一个核心技术 。
华为算法团队通过对大量的音乐进行深度学习建模,并结合传统信号处理能力最终实现音源分离:首先利用短时傅里叶变换(STFT)将一维的音频信号变换到二维的时频谱;然后将得到的二维的时频谱与原始的一维时域信号一起作为双流输入,通过多层的残差编码及大量数据的训练,获得目标乐器的隐空间表达;最后进一步通过一系列的变换矩阵最终还原成原始的对象立体声信号 。
上述处理过程中使用的变换矩阵和网络结构是华为的独特技术,是针对不同的乐器音色特点专门设计的,能够确保每一个乐器都能尽可能的分离完整且干净,为3D化提供足够优质的分轨素材 。其涉及的核心能力包括:
- 音频信号特征提取:包括通过编码器从时域信号直接提取特征,以及通过短时傅里叶变换从时域信号提取时频谱特征;
- 深度学习模型构建:加入残差模块与注意力机制,增强对不同乐器谐波建模能力与时序关联能力;
- 多通道维纳滤波:结合传统信号处理的能力,通过深度学习建模预测对象与非对象功率谱关系,构建与处理滤波系数 。
文章插图
音频分离技术示意图
目前,HMS Core已对外开放了12种音源分离的能力(人声、伴奏、鼓、小提琴、贝斯、钢琴、木吉他、电吉他、弦乐、主唱、带伴唱伴奏和管弦乐),帮助开发者快速地提取出自己想要的乐器进行3D化编辑 。
空间音频渲染技术仅通过两只耳朵收听外部声音,人类为什么可分辨声源的位置呢?这是由于从声源传递到两只耳朵的声音实际上存在细微的差异,包括到达时间、接收到的能量、以及相位差等信息 。而这些信息差综合体现在一系列传递函数,称为头相关传递函数(HRTF) 。通过将HRTF叠加到单点声源,我们就可以虚拟出真实世界中声音的方位直达声的部分 。为解决因头型、肩宽等人体体征的差异带来的HRTF因人而异的难题,我们通过大量数据的分析,设计了一套较普适的HRTF,可以让每个人都能享受到3D音频 。另外为了营造空间中声音的反射、散射、干涉等物理现象,我们还通过叠加一系列的房间相应函数(RIR)来构建真实的空间,形成所谓的混响 。因此,通过一系列的HRTF和RIR对声源进行滤波,我们就可以将之前分离的素材进行3D化,形成3D音乐 。
文章插图
空间音频渲染技术示意图
目前,HMS Core音频编辑服务提供的音源分离、空间音频渲染服务这套组合拳已经应用在华为音乐的高级音效当中,用户可以进入华为音乐音效页面,在高级音效栏目中选择声空音效或声乐纯享,感受3D音频的魅力 。
推荐阅读
- 华为|余承东晒华为顶级音频实验室:FreeBuds Pro 2耳机智慧动态降噪诞生于此
- H5实时解码音频并播放
- 将mp3格式的音频转换为采样率8k的wav 如何将mp3转换成wav
- 一个适合于.NET Core的超轻量级工作流引擎:Workflow-Core
- 在电脑上如何剪切音频文件? 如何剪切音乐音频文件
- CDR教程—教你如何使用CorelDRAW文字排版技巧 cdr入门教程cdr排版教程
- YY语音频道头像衣服颜色对应代表身份等级和权限说明 yy马甲等级
- 手机上如何剪辑音频? 用什么软件可以截取一段音乐
- MIUI8的录音机还有太多你不知道的 小米手机录音机录音音频保存在哪?
- 电脑开机后提示音频服务未运行的解决方法 电脑音频服务未运行
