
“早些年,大家聚在一起說人工智能芯片,談的都是規劃和理想,因為沒有具體的產品。而現在,誰還在臺面上大談理想,卻拿不出一個實際的產品,就要受到別人的質疑。”一位不愿具名的AI芯片業內人士對國際電子商情記者如此說道。
其實該業內人士的觀點,的確反映了當前AI芯片產業的一些現狀。經過幾年時間的沉淀,真正有實力的企業開始實現產品落地。

中國半導體行業協會IC設計分會理事長、清華大學微納電子系魏少軍教授表示,當前的AI服務基本都在云上,很少出現在其他地方,其原因在于先驅者們在云上做了大量工作,這些工作包括:智慧家庭、圖像認知、智慧醫療、AI翻譯等。
不過,從“云”走向“邊”,從Cloud到Edge是必然的現象。魏教授舉例表示,Google在2018年峰會上提出,無論怎樣的AI都要從現實社會中攝取,把原始數據轉化成語義化的數據,再讓Cloud來處理。“這是必然現象。”他也補充說:“目前,AI走向邊緣的過程主要以‘通用’為主驅動力,但是從未來幾年發展看,終端應用為主或將占主導地位,專用AI芯片將起到非常重要的引領作用,這也是未來發展的重要方向。”

另外,魏教授還談到‘軟件定義芯片’的話題,他從軟、硬件的可編程性來切入。“最好的架構能解決能量效率的問題,什么樣的芯片具備這樣的架構?我們把軟、硬件的可編程性分為四個象限。傳統的CPU、DSP在第二象限,專用集成電路在第三象限,FPGA、EPLD在第四象限。第一個象限具備很好的軟、硬件可編程性,如果這兩者都成立,就是‘軟件定義芯片’。”
最后,魏教授暢想了AI Chip 2.0的愿景以及實現路徑。“AI Chip 0.5是非常早期的階段,像Intel CPU、Nvidia GPU、AD的DSP,這些產品不是作為AI Chip而出現的;AI Chip 1.0包括Google的TPU、MIT Eyeriss、Nvidia SCNN、KAIST UNPU,這類產品專門為AI設計,是一種領域專用的東西或某種拓展。AI Chip 1.5開始探索通用性,像Tsing Micro Thinker、Wave Computing DPU都屬于1.5,它們具備半通用、可重構、可配置的特性,也可能兼顧了兩個內容;而AI Chip 2.0到今天為止還沒有答案,也許是通用、自適應、具備智慧化的東西。”他說道。

高通技術副總裁李維興圍繞著終端側AI介紹了高通對人工智能、云端、終端側的看法和產品規劃。他的核心觀點是:5G和AI的關系密不可分,一方的進步推動另一方的發展。
2018年,高通正式成立Qualcomm人工智能研究院,關注AI產品研發、制造以及與合作伙伴的項目。截至今日,高通共發布了四代AI平臺。第一代驍龍820是高通首個針對AI Engine的平臺,用CPU的方式將AI的使用場景呈現出來;第二代驍龍835支持Caffe 2,通過它支持神經網絡的SDK開始使用CPU、GPU、DSP。第三代驍龍845支持的項目非常多,通對iOS端的支持將人工智能的運算做到更優化。

第四代驍龍855集成了Kryo 485 CPU、Adreno 640 GPU、Hexagon 690處理器、驍龍X24調制解調器、全新的Spectra 380 ISP以及WiFi、藍牙模塊、安全模塊等。在AI方面,855支持第四代多核Qualcomm人工智能引擎AI Engine,可實現7 TOPs運算,性能是845的三倍。值得注意的是,Hexagon 690處理器增添了一個全新設計的Hexagon張量加速器,四個Hexagon向量擴展內核,還增加了四線程標量內核。基于此,驍龍855成為2019全球5G發布重要的平臺。
他還認為,AI訓練、推理可在云端做,也可往終端走。“大家對與云相關的使用場景都非常振奮,但后續的規模化需要與半導體及軟件行業提供聯結的使用機會。傳感器一定在邊緣,實時接觸也在邊緣。如何保持工廠和汽車自動化的個性化,保護好隱私,維持可靠性?將AI運算分布到全網是必然趨勢。”他說。
最后,李維興表示,5G可將AI從云端加上邊緣化,AI的使用場景可將5G的商業模式開發出來。研發、投資,將無線、通訊、邊緣計算通過感知、推理、行動的過程中迭代是高通在5G+AI領域上可為業界做出的貢獻。

Imagination Technologies視覺及AI部門高級總監Andrew Grant為現場觀眾描述了云端的工作,還解釋了智能物聯網和邊緣設備的如何運作原理。他表示,在智能攝像頭監控、智能駕駛以及其他更多的領域都會使用到邊緣設備,其演講主要圍繞這些領域展開。
Imagination的AI芯片方案可以面向監控攝像頭、智能汽車以及智慧城市的邊緣設備進行拓展。Andrew 認為,當前智能汽車是非常熱的話題,神經網絡在汽車上的應用,可讓ADAS、汽車自動化、攝像頭監測等性能得到明顯提升,而精準地識別前方路況,需要車載配件以及神經網絡相互協調工作。

在智能汽車上,Imagination的PowerVR可支持自動駕駛的路徑規劃、道路標志識別、導航、司機疲勞監測預警等功能,當汽車與攝像頭通過車聯網連接在一起時,在車聯網的輔助下,智慧交通將成為可能。不過,自動駕駛水平從最低級到最高級也代表著越來越高的要求、越來越強大的功能,其所需的算力也將漲至500+Tops,這需要低能耗、高算力的芯片。
同時,Andrew 以智能相機為例,探討了邊緣與云的關系。他表示,單一的智能相機能檢測到移動的物體,但不能區別鳥和可疑的人。如果它在神經網絡和加速器上面,我們就可以把這個視頻放在神經網絡上,就能知道他們在做什么。這就是邊緣更強大帶來的益處,這個邊緣可以去幫助云,同時云也可以幫助邊緣。
未來在車上可能會有6-12個屏幕,這需要訓練GPU,讓汽車可去運行8個獨立的處理器。并且,當一個處理器壞掉,也不影響其他處理器的運行。“相互獨立運行非常重要,能帶來更好的性能,使系統更加靈活,這應該是未來的主流。” Andrew 表示:“不同的處理器、CPU、解決方案都是非常重要的,但是我們認為的GPU還有神經網絡的加速器,把二者結合會帶來更好的結果。”
最后,Andrew強調,PowerVR的處理速度是移動CPU的100+倍。Imagination PowerVR 3NX IP的單核設計支持0.6-10Tops的計算性能,通過多核結構最多提供高達160Tops的計算性能,可以滿足對算力要求的汽車領域的需求。

英特爾高級首席工程師、大數據技術全球CTO戴金權表示,英特爾一直致力于提供從端到端,包括設備端、邊緣、網絡到數據中心端到端完整的解決方案或者計算架構。為此,他重點介紹了英特爾的開源項目Analytics Zoo。
“我們在英特爾做了很多工作,包括Analytics Zoo項目,該項目能夠將大數據分析和人工智能統一起來。此前,在大數據分析和人工智能當中,沒有一種解決方案能夠解決所有問題。”他表示。
直到今日,英特爾的至強服務器仍是大數據分析和人工智能的基礎架構。包括:Cascade Lake,至強可擴展處理器,以及一些新功能的支持,構成了一個非常基礎、應用廣泛的人工智能+大數據分析的應用平臺。
那么,如何在基礎的平臺上利用Apache Spark來構建人工智能?英特爾開發、開源了基于Apache Spark分布式深度學習的框架BigDL。BigDL在大數據的平臺上提供了一個原生的深度學習的圖像,可讓用戶直接在現有大數據Spark上運行深度學習的應用,同時為底層大規模分布式硬件集群做了大量的優化。
對于大多數用戶來說,尤其在生產系統當中,基于Apache Spark這樣的大數據集群仍然是生產數據、大量硬件資源的聚集地。更高效利用這些生產數據和硬件資源,能夠將新的人工智能的應用支持起來。

華為無線終端芯片業務部副總經理王孝斌分享了華為在端側AI、HiAI上的進展情況。端側的Machine Learing會讓手機越來越智能,預計到2022年,80%的手機會具備端側AI的能力。
HiAI是基于集成NPU使用專業的指令集和計算庫,高效執行神經網絡的算子。在AI時代,專業的NPU張量計算最適合AI的應用。HiAI采用了很多種優化方法,盡量將計算在本地完成,由此實現快速簡潔有效的推理預算。
去年,華為推出了HiAI 2.0,跟著麒麟980發貨,目前服務的消費者已經超過了6000萬。據悉,HiAI2.0平臺包括HiAI Foundation芯片能力、HiAI Engine應用能力與HiAI Service服務能力,分別對應的是芯、端、云上的開放平臺。
在芯片能力方面,因為麒麟980的關系,HiAI2.0平臺的AI算力更強。以圖像識別為例,麒麟970的每分鐘圖片識別率為2000張,而麒麟980則增加到4500張。HiAI2.0能夠支持輪廓、姿態細粒度的物理識別,可進行視頻的處理,做到了精準象素級的分割。
另外,HiAI2.0還具備以下優勢:算法方面有較大提升,支持的算子數增加到了147個;支持當下幾乎所有的主流模型,包括TensorFlow、CoreML、Caffe2、ONNX、PaddlePaddle、MindSpore等;在工具鏈方面也有提升;在兼容性方面可兼容INT8。同時,HiAI2.0的開發周期也有了非常大的提升。芯片級Foundation開發周期縮短到一個星期,基于云的Service由周期縮短到1天,HiAI Engine周期縮短到一個小時。

百度主任架構師歐陽劍介紹了百度近年來在AI芯片上的工作,重點講述了百度“昆侖”芯片。
“AI時代的摩爾定律非常高,在數據和模型復雜度方面,每兩年就有量子級的提高。此背景下,專用處理器是必經之路。”歐陽劍還介紹,過去的百度一直在探索一條適合自己發展的AI處理器的路。2011年左右,在做GE FPGA的架構器;2013年,在FPGA基礎上誕生了性能AI處理器;2017年,基于FPGA架構的AI處理器具備了CT tops性能,并有了1000+片FPGA的部署規模。同年,百度提出了XPU的架構,該架構是普適的AI計算架構,可用在云端、自動駕駛、邊緣計算,具有很高的計算能力、高通用性、靈活性;2018年,百度發布了“昆侖”,其性能比之前提高了30倍。
“昆侖”芯片基于三星14nm制程工藝,有很高的內存帶寬,性能達到260 tops,具有極大的通用性和靈活性,該芯片既能做訓練也可做預測。未來百度將會把“昆侖”應用于自動駕駛領域,利用XPU強大的計算能力和車載配件共同推動自動駕駛汽車的發展。歐陽劍還透露,2019年“昆侖”將會在百度內部大規模使用。

Wave computing高級副總裁兼CTO Chris Nicol介紹了Wave研發的DPU。據了解,Wave的DPU芯片,可將軟件接入到芯片,能存取外部內存上的數據信息。DPU芯片內部集成了大量Cluster,每個Cluster內包含8個DPU算術單元、16個處理元素和存儲器。其中,處理單元用全局異步、局部同步設計實現,沒有時鐘信號,由數據流驅動。處理單元與CGRA可同時運行計算。
Chris還提到了聯合學習,在數據中心訓練一個大型模型,將其分布到不同的邊緣設備上。邊緣設備也具備訓練的能力,可在數據中心訓練好的模型基礎上持續訓練學習,同時邊緣設備可將后續學習的結果再傳回數據中心,有助于數據中心模型的進一步分析和訓練。未來,Wave將把AI從數據中心擴展到邊緣設備。

寒武紀副總裁錢誠表示,目前在云端做智能處理要解決的問題最終可以歸結為能效比的瓶頸問題,已有的ASIC、ASIP、FPGA、GPU、CPU的能效大約集中在每秒100-1000億次能效比區間,再往上非常困難。
現在瓶頸有三方面的問題:1.摩爾定律等物理定律功效漸漸減弱,現在設計在相同面積的情況下功耗是上升的。2.多核并行方面漸漸成為瓶頸,比如說現在做超級系統就50%左右的并行效率。3.應用場景發生變化,云端的重要性已經變得越來越突出。
這需要性能功耗比高、通用性強的芯片。實際上,當芯片設計得越通用其能效就越低,要同時滿足這兩個條件是非常困難的。
為解決這個問題,現在業界的做法是主要集中在領域專用的架構。這個架構需要支持非常高的性能功耗比,采用的電路都是領域專用的。不過又要兼顧通用性,無法做到像CPU一樣對所有計算具備強有力的加速,只適合在某一領域里對某一大類的算法做加速,這就是現在的領域專用架構。
寒武紀的目標是希望能夠在云端做到端云一體。很多端以后都會發展成多元具像的具體設備,比如:手機可以是瀏覽器、閱讀器、收音機、電視、搖控器等等。這些設備顯然是需要通用的智能處理能力,同時要使云端訓練好的模型和框架嚴絲合縫地移植到具體的終端設備上,現在很多設備做不到,希望未來的端云一體能做到。
| 相關新聞: |
| 新華網-中科院自動化所AiRiA研究院發布“普惠AI,芯向邊緣”AI產品戰略 |
綜合新聞