本文是微软对语音前端pipeline基于任务解耦方面的相关工作。区别于目前流行的传统线性AEC+以（线性AEC输出/传声器接收信号/远端信号）作为输入的深度神经网络的结构；采用了NN回声估计+以(估计回声和去回声后的粗谱)作为输入的神经网络的结构，继承了语音增强中任务解耦的思路^[1]^[2]。

作者：Sebastian Braun, Maria Luis Valero (微软)

背景动机

本文贡献：

模型架构

模型采用CRUSE，详见CRUSE。

DAEC模块网络输入幅度谱压缩后的传声器接收信号和利用幅度平方相干算法帧对齐的远端信号复谱，即输入通道数为4，输出得到估计回声的压缩谱，解压缩后与传声器接收信号相减得到残差信号。

$E(k,n)=Y(k,n)-\|\widehat{D}(k,n)\|^{\frac{1}{c}}e^{j\phi_{\widehat{D}(k,n)}}$

NRES模块输入残差信号和估计回声的压缩复数谱，即输入通道数也为4，网络估计得到多帧滤波器系数，对残差信号进行多帧滤波

$\widehat{S}(k,n)=\sum_{\kappa=-K}^{K}{\sum_{l=0}^{L}{G_{k,n}(\kappa,l)Y(k-\kappa, n-l)}}$

式中K=1，L=2

AEC的编码器输出和NRES的编码器输出用带点卷积的跳转连接通信。

损失函数

$\mathcal{L}=\mathcal{L}(\widehat{s},s)+\alpha\mathcal{L}_{asym}(\widehat{s},s)+\gamma\mathcal{L}(\widehat{d},d)$

第一项是CRUSE中的复数谱压缩MSE损失，第二项是为了防止语音过度抑制，第三项是回声估计损失，这里用不压缩的MAE，因为压缩损失会导致回声欠估计严重

$\mathcal{L}_{asym}(\widehat{s},s)=\sum_{k,n}{max{(|S|^c-|\widehat{S}|^c,0)^2}}$

$\mathcal{L}(\widehat{d},d)=\sum_{k,n}{|\widehat{D}-D|}$

第一张图越偏左上的模型越好，其他三张越偏右上的越好。

loss的消融实验