基于Transformer神經網絡的大模型(BERT、GPT等)的廣泛應用,讓機器具備了更接近人類的理解和表達能力,體現了人工智能在提高生產力上的巨大潛力。注意力機制在Transformer的計算能耗和延遲中起重要作用,針對注意力機制設計高能效和高速的加速器具有較高的研究意義。但現有注意力加速器的硬件架構中存在兩個主要局限性,首先,常用的輸入固定、權重固定以及輸出固定的脈動陣列架構無法在數據復用、寄存器使用和利用率之間取得平衡;其次,逐層計算的操作順序導致中間結果的 SRAM 訪問開銷過高。這些局限阻礙了加速器能效和速度進一步提升。
為應對上述挑戰,中國科學院微電子研究所集成電路制造技術全國重點實驗室科研團隊設計了一種高能效、高利用率注意力加速器硬件架構。該架構采用內外積混合的 “平衡脈動陣列”(Balanced Systolic Array)結構。團隊基于數據復用理論公式指導,確定最佳的內外積混合陣列形狀,其能效相比傳統脈動陣列提升了40%,利用率達99.5%。在操作流程上,團隊提出了“多行交織”(Multi-Row Interleaved)的操作順序,使 SRAM 能耗降低了 31.7%。基于上述兩種技術,團隊設計的注意力加速器在能效方面提升了39%,在吞吐量×能效方面較現有工作提升了38%。
此項研究成果以“An Energy-Efficient High-Utilization Hardware Architecture for Attention Mechanism in Transformer using Balanced Systolic Array and Multi-Row Interleaved Operation Ordering”為題在第62屆國際設計自動化會議(DAC)上進行了口頭報告。碩士研究生周海洋為第一作者,呼紅陽助理研究員為通訊作者。
該工作獲得了國家自然科學基金青年基金項目和基礎科學中心項目的資助。
、
圖1.?傳統注意力加速器的局限性

圖2.?提出的平衡脈動陣列結構
| 相關新聞: |
| 微電子所在鐵電二極管噪聲研究及應用方面取得進展 |
| 微電子所在POSIT浮點數SRAM存內計算宏芯片領域取得進展 |
| 微電子所在POSIT浮點數SRAM存內計算宏芯片領域取得進展 |
學習園地