昨日,倍受矚目的智能芯片引領者寒武紀科技在北京舉辦了成立以來的一場發(fā)布會。會上,寒武紀聯(lián)合創(chuàng)始人,CEO陳天石隆重發(fā)布了該公司的下一代智能處理器IP產(chǎn)品,同時披露了未來的云端訓練芯片和智能汽車芯片,層出不窮的驚喜吸引了行業(yè)的廣泛關注。在會上,陳天石還就業(yè)界廣泛關注的華為Krin 970 NPU的相關問題作出了公開回應。他表示,Kirin 970 的NPU技術正是來自于他們的1A處理器IP授權
在本文,我將為大家揭開這家來自中國的人工智能芯片企業(yè)、全球智能芯片領域首個獨角獸企業(yè)的神秘面紗。
Kirin970人工智能技術的背后支持者
在今年九月的IFA上,華為終端總裁余承東披露了華為全新一代芯片旗艦Kirin 970。這顆集成了55億晶體管的SoC除了擁有強悍的CPU和GPU運算能力以外,還第一次引入了獨立的AI加速器,這引發(fā)了大家的廣泛關注。從華為方面的數(shù)據(jù)顯示,這顆NPU核的處理能力甚至還超過蘋果A11。于是圍繞這個AI加速器的IP來源,引發(fā)了業(yè)界的猜測,作為傳言主角的寒武紀之前未曾公開承認過。終于,在這次發(fā)布會上,陳天石公開表示,華為Kirin 970 NPU的IP授權來自于他們的1A處理器。
據(jù)介紹,這款寒武紀于2016年發(fā)布的處理是全球第一款商用深度學習處理器IP,這是一款針對低功耗嵌入式終端的本地智能處理而開發(fā)的產(chǎn)品。在1GHz主頻下理論峰值性能為每秒5120億次半精度浮點運算,對稀疏化神經(jīng)網(wǎng)絡的等效理論峰值高達每秒2萬億次浮點運算,同時支持八位定點運算和一位權重。在某些應用中,這顆處理器擁有比傳統(tǒng)四核CPU高24倍的性能和50倍以上的能效,陳天石強調(diào)。
在實際的應用上,它不僅能支持CNN、DNN、RNN、LSTM、SOM等多樣化的模型,還支持deconv、local connection,depthwise conv等多樣化算子。另外,支持稀疏化網(wǎng)絡、FP16、INT8運算和1bit權重為1A增色不少。陳天石表示,正是因為寒武紀從產(chǎn)品規(guī)劃開始就做了以上兼容,才讓這個產(chǎn)品即使跟現(xiàn)在的其他競爭對手相比,也毫不遜色。正是在這些強悍性能的支持下,華為Kirin 970才能輕松支持視覺、語音、自然語言處理等多種智能任務,并在和蘋果A11的競爭對比中毫不遜色。
“我們打敗A11并不是靠野蠻地去堆運算器,先進的稀疏化技術才是我們的秘密武器”,陳天石強調(diào)。但這次打敗蘋果并不帶代表什么,他補充說。
陳天石引用聯(lián)發(fā)科創(chuàng)始人蔡文介的話表示:“這個行業(yè)就像一場拳擊賽,贏了這一場還有下一場,下一場我們會繼續(xù)推陳出新”。
多款處理器IP、云端芯片同臺亮相,發(fā)力AI時代
在回顧了1A處理器帶來的優(yōu)越表現(xiàn)外,寒武紀還在這場發(fā)布會上帶來了幾款IP產(chǎn)品和云端芯片,全面發(fā)力AI時代。
首先帶來的是寒武紀1H16處理器,據(jù)陳天石介紹,這是一個可以用于手機安防、攝像頭、音箱、機器人等等廣泛和智能處理有關領域的產(chǎn)品。產(chǎn)品擁有性能更好、能耗更低、功能更加完備的特點。但在問到具體細節(jié)的時候,陳天石強調(diào),不能公開具體的技術數(shù)據(jù),考慮到其合作伙伴,他們暫時不能公開具體的技術數(shù)據(jù),但他們的芯片合作伙伴可以則通過與他們簽署NDA方式,獲取更多的技術細節(jié)。
另外,寒武紀還帶來了是一款專門面向計算機視覺領域?qū)S玫奶幚砥鱅P產(chǎn)品——寒武紀1H8處理器。寒武紀方面表示,希望這個產(chǎn)品能為計算機視覺領域領域提供成本更合理、價格更低廉的AI硬件方案。
陳天石告訴記者,寒武紀1H8 和最早發(fā)布的寒武紀1A處理器產(chǎn)品相比,具有更低的功耗、更低的成本。其在視覺領域延續(xù)了出類拔萃的通用性、完備性,性能功耗比可以達到寒武紀1A處理器2.3倍。這就讓其可以為計算機視覺領域提供非常廣泛的支持,像拍照輔助、圖片處理、安防監(jiān)控等就是其典型應用。
“我們?yōu)檫@款產(chǎn)品提供1T/2T/4T/8T四種可選運算能力設置,期待在視覺方面與更多合作伙伴一起共創(chuàng)輝煌。我們堅信它未來在視覺市場一定會大放異彩”,陳天石強調(diào)。
除了這兩個IP以外,寒武紀還披露了一款面向智能駕駛領域的處理器IP產(chǎn)品寒武紀1M。這個產(chǎn)品的性能將達到寒武紀1A的10倍以上,高度集成,具有更高的性能功耗比。而其目標是讓中國的汽車全部都用上國產(chǎn)智能處理器,陳天石強調(diào)。
除了帶來了面向終端的IP產(chǎn)品外,寒武紀還帶來了寒武紀的云端智能芯片MLU(機器學習處理器)。陳天石表示,在未來18個月當中,他們將發(fā)布兩款高性能的商用智能芯片MLU100和MU200,前者采用TSMC 16nm工藝,同時支持推理和訓練、偏重推理,可以應用于數(shù)據(jù)中心、中小型服務器;后者則是一款更偏重于訓練的智能芯片,是面向企業(yè)級智能研發(fā)中心的。
陳天石表示,寒武紀團隊對于全球?qū)W術界和工業(yè)界最大的貢獻,到目前為止還是深度學習處理器,他們開創(chuàng)了深度學習處理器一個全新的方向,但他們不能吃老本,要立新功。寒武紀要做的就是通用的機器學習處理器。
“我們的技術,以前背后所做的一切,都是為了這兩款云端智能芯片大規(guī)模商用做準備,敬請期待”,陳天石告訴記者。
打造廣泛生態(tài)鏈謀求共贏, 目標是三年讓十億終端用上寒武紀“芯”
和很多其他應用一樣,擁有了高性能的硬件是AI發(fā)展的基礎,但如果要發(fā)揮其威力,發(fā)展其市場,則需要軟件、工具和生態(tài)多方面的緊密結合,只有這些方面都打通了,才能開啟一個真正的AI時代,而寒武紀正在這方面做努力。
在發(fā)布會上,寒武紀帶來了專為開發(fā)者打造的寒武紀人工智能軟件平臺“Cambricon NeuWare”,它包含了開發(fā)、調(diào)試、調(diào)優(yōu)三大部分,將全面支撐端云一體的智能處理。據(jù)了解,該軟件開發(fā)平臺構建于寒武紀發(fā)明的人工智能專用指令集支撐之上。這意味著,基于寒武紀軟硬件平臺,人工智能產(chǎn)業(yè)界將構建一個完整的、基于底層自主指令集的智能新生態(tài),方便開發(fā)者進行跨平臺應用遷移,并為端云一體的人工智能處理打下堅實基礎。
陳天石表示,寒武紀的目標是打造各種工具鏈,讓大家代碼還可以像以前那樣寫,不改變代碼習慣就使得大家能夠在寒武紀處理器上能夠非常便捷地編程。
寒武紀方面認為,指令集和軟件開發(fā)平臺其實一直是開發(fā)者做跨平臺的應用移植的壁壘。為了讓開發(fā)者、程序員快速高效開發(fā)和部署人工智能應用,端和云一定要做到軟硬件兼容。這樣做的好處是:第一,做應用遷移會非常方便,甚至不需要把這些應用做重新編譯,就可以切換過去。第二,端云一體,更加方便端和云進行協(xié)作。我們可以去做更細粒度、自由度更大,對于任務、對于巨大負載的切分,整體端和云可以提供更強的綜合智能處理能力。這也是寒武紀一直堅持端云一體發(fā)展戰(zhàn)略的原因。
除了自身的努力外,與第三方合作伙伴的緊密合作也是寒武紀在過去幾年取得驕人成績的關鍵。
“過去,我們在國家企業(yè)信息技術上落后于國外同行,在生態(tài)上也是跟隨者、參與者,這給我們帶來了很多代價和教訓。但在AI時代,這一切將會轉(zhuǎn)變,因為我們的硬件和算法與國外同行都處于同一階段”,陳天石告訴記者。
他表示,寒武紀將力爭在3年后占有中國高性能智能芯片市場30%的份額,并使全世界10億臺以上的智能終端設備集成有寒武紀終端智能處理器,如果這兩個目標實現(xiàn),寒武紀將初步支撐起中國主導的國際智能產(chǎn)業(yè)生態(tài)。
編者后記
回顧寒武紀的發(fā)展歷程,無論是從2008年中科院計算所成立10人學習團隊,開始探索處理器與人工智能交叉領域算起,歷經(jīng)將人工智能應用于處理器設計驗證,實現(xiàn)中國大陸在處理器架構頂尖會議HPCA上的首次突破;還是后來從人工智能應用于處理器架構優(yōu)化,提升處理器性能和能效比,到研發(fā)全球首個深度學習處理器架構DianNao,獲處理器架構頂尖學術會議ASPLOS 2014的認可,再到研發(fā)全球首個多核深度學習處理器架構DaDianNao。以上輝煌見證了寒武紀在發(fā)展過程中的取得成績,這是一代代寒武紀人艱苦奮斗的成果。
2015年,他們成功研制全球首個深度學習專用處理器寒武紀,并與2016年成立了寒武紀科技,自此拉開了一段新的歷程。公司成立后,他們先后發(fā)布了全球首款商用深度學習處理器IP產(chǎn)品——寒武紀1A處理器和全球首款人工智能專用指令集Cambricon ISA。并在隨后獲得華為的認可,為華為的Kirin 970證明。
在一步步的成長過程中,寒武紀科技獲得了國內(nèi)外的一致好評,一個智能芯片的獨角獸也正在逐漸成長。展望未來,希望在寒武紀等廠商的領導下,中國智能芯片能在國際市場上闖出屬于他們這個時代的輝煌。