霍金失語之后,人們曾集結全世界最頂尖的技術幫他“說話”,讓這顆世界上最高速運行的大腦,每分鐘能“說”出15個單詞。
如今一項嶄新的技術有望幫助更多失語者,讓他們只須“動動腦子”,就能發出接近正常語速的聲音。
近日,加州大學舊金山分校華裔教授Edward Chang及其團隊,設計出一種革命性的腦機接口設備,將大腦信號直接轉化為可聽到的語音,相關成果發表在《自然》上。
第一次,從腦電波到語音
當人講話時,嘴唇、舌頭、下頜、喉部的上百塊肌肉都在配合運動,已知的大腦語言中樞——顳上回神經細胞的電活動支配了這些精細運動。假設一個人說“蘋果”時,迅速記錄他的腦電活動,就可能建立起特定詞匯和腦電活動之間相互對應的“字典”。接下來,科研人員就可以通過人工智能學習的方式,根據這種腦電活動直接合成出“蘋果”的發音。
理想的話,當研究者積累的“字典”足夠龐大和準確時,即便一個人無法發出自己的聲音,只要他產生說話的想法,就能在“字典”里找到對應的電活動,并且靠機器“翻譯”出大家都能聽懂的語音。
“這樣我們就能通過失語病人的面部表情和肌肉動作,解碼他們大腦產生的信息,從而幫助那些患有喉癌、聲帶破損等疾病的人與外界‘對話’。”論文第一作者Gopala Anumanchipalli告訴《中國科學報》。
這和霍金使用的那套著名系統有什么本質區別呢?在霍金的眼鏡上,安裝著一個紅外傳感器,能檢測到他右臉頰上一塊肌肉的活動。當他輕微抽動這塊肌肉時,就相當于按下了一個按鍵。霍金就是通過這種方式先打字,然后通過文字轉化語音技術,把他的想法“說”出來。
可以看出,盡管匹配了一系列高科技,霍金使用的語音轉化系統,還是傳統的“從文字到語音”模式。
而在這項研究中,科學家則是在挑戰“從腦電波到語音”的轉換方式。“這是第一次,我們可以根據人的大腦活動生成完整的句子。”Chang說。
深入大腦語言中樞
“這是一個很大的進步。”中科院昆明動物研究所研究員徐林第一時間關注了這篇論文。他告訴《中國科學報》,傳統的腦機接口技術大概1分鐘能輸出8個單詞,而通過這種方法模擬合成口語句子,一分鐘能達到150個單詞,已經比較接近正常人的水平了。
“這項技術的巧妙之處在于直接記錄了已知語言中樞——顳上回的電活動,所以更容易檢測到與語言發聲相關的信號。”徐林說,“這個系統的順利運行,表明人類未來能實現人腦和機器之間更加順暢的交流。”
但這種方法不是沒有代價的。傳統腦機接口通常是無創的,新技術則需要在開顱的前提下,把電極直接插進大腦皮質的語言中樞中。在這項研究中,科學家招募了5名準備接受癲癇病開顱手術的志愿者,同時與醫院合作,在手術治療過程中“順便”做了腦機接口實驗。
“這就決定了這批數據的獲得非常艱難,基于5個志愿者的數據能得到這么好的結果,的確令人驚嘆。”徐林對《中國科學報》說,“但開顱操作也給臨床應用制造了障礙。”
打造語言的“公用圖書館”
在此之前,基于腦機接口技術的人工智能學習,通常只是針對某一個體的。因為人在思考和說話時的腦電活動存在顯著的個體差異。這就意味著,即便兩個人都在想著“蘋果”、說著“蘋果”,記錄下來的腦電活動也可能很不相同。在一個人身上做實驗得到的“字典”,在另一個人身上或許就不適用。
而這一次,研究者別出心裁地測量了說話時肌肉運動所對應的大腦活動模式。由于不同人在說同一句話時的肌肉運動存在共性,這就為未來發展人際間通用的腦電解碼和語音合成設備提供了可能。
“大腦模式的確是非常個性化的,但語言詞匯則是通用的——這可以作為一個出發點,讓我們去建立一個公用的‘圖書館’。基于這一原理,我們的技術有希望向英語之外的其他語言推廣。”Anumanchipalli向《中國科學報》解釋。
但語言畢竟是微妙的東西,每個人說話時都包含著很多個性化的小細節。當句子變得比較復雜時,合成語音導致聽者的誤判率達到了70%以上,說明合成出的聲音與自然發聲仍然有較大區別。對此,Anumanchipalli 說:“使用者有必要接受一定的訓練并多加實踐。”
徐林提出,下一步可以探索給這套系統加上一個反饋裝置。“目前參與實驗的受試者其實都是能正常說話的人。但真正的語言障礙者,很多同時也有聽覺障礙,怎么能讓機器合成的聲音再反饋到‘說話者’的大腦里,是一個很有意義的方向。
| 相關新聞: |
| 曾毅:構建新一代人工智能準則 |
| 賽迪研究院:人工智能芯片技術和產品發展勢頭迅猛 |
學習園地