近日,微電子所感知中心低功耗智能技術與微系統團隊在低功耗人工智能領域研究取得新進展。
語音喚醒技術 (KWS, Keyword Spotting)是人工智能領域的重要技術,語音喚醒是人聲與低功耗設備或終端之間的典型且廣泛使用的“觸發器”,可廣泛應用于各種低功耗的智能芯片與微系統。通常高性能的深度卷積神經網絡模型的語音喚醒模型復雜度高、計算量大、需占用大量內存,難以將其部署到上述資源有限的硬件設備上。
針對上述問題,感知中心科研團隊提出了一種用于語音喚醒的極輕量化、高準確率的改進二值殘差神經網絡B-ResNet(Binary Residual Neural Network,圖1),利用二值量化方法,將神經網絡中的全精度權重、激活參數量化為1bit(+1,-1),顯著降低內存占用,亦可將網絡中存在的大量浮點卷積乘加運算簡化為XNOR同或邏輯與popcount運算,大幅降低計算復雜度。為解決二值網絡帶來的精度下降問題,團隊在B-ResNet網絡前向傳播中提出了一種具有移位初始化且可學習的激活函數來優化網絡各層激活值分布,降低信息損失(圖2),并在反向傳播過程中,提出了一種具有可變周期性窗口的梯度修正近似方法,有效解決了梯度失配與消失問題(圖3)。在GSCD(Google Speech Commands Dataset)標準語音數據集的12分類任務下,與基線網絡Res8-narrow相比,該技術可降低33%參數量與72%計算量,實現更高的語音喚醒精度,為后續該功能的低功耗硬件實現奠定了良好基礎。
該成果的論文“ Low-complex and Highly-performed Binary Residual Neural Network for Small-footprint Keyword Spotting” (DOI:10.21437/Interspeech.2022-573)被國際語音通信協會(ISCA)組織的語音領域重要會議Interspeech2022接收,團隊被邀請作口頭報告。微電子學院碩士研究生王嘯為該文章的第一作者,微電子所正高級工程師詹毅為該文章的通訊作者。
論文信息鏈接:
1:https://www.isca-speech.org/archive/interspeech_2022/wang22g_interspeech.html
2:https://www.isca-speech.org/archive/interspeech_2022/



綜合信息