在芯片領(lǐng)域,有真貨在手和沒有真貨,差距很大。
這也是比特幣獨角獸比特大陸(Bitmain)最新發(fā)布的芯片Sophon(算豐)如此引人注目的原因。
憑借其在比特幣礦機方面全球領(lǐng)先的優(yōu)勢,比特大陸從2015年起進(jìn)入人工智能領(lǐng)域。在今天的新智元AI World 2017世界人工智能大會上,公司聯(lián)合創(chuàng)始人兼CEO詹克團發(fā)表演講《AI驅(qū)動的又一個星球級計算》,親自揭幕了公司首款面向AI應(yīng)用的張量處理器——Sophon BM1680,這也是繼谷歌TPU之后,全球又一款專門用于張量計算加速的專用芯片(ASIC),適用于CNN / RNN / DNN的訓(xùn)練和推理。
Sophon BM1680內(nèi)部的加速器內(nèi)核采用了與谷歌TPU類似的架構(gòu),采用改進(jìn)型脈動陣列(Systolic)架構(gòu)技術(shù)。據(jù)介紹,Sophon運行軟件的性能在基準(zhǔn)測試和成本方面比傳統(tǒng)GPU更加出色。
在會上,比特大陸還推出了兩款新產(chǎn)品:深度學(xué)習(xí)加速卡Sophon SC1和智能視頻分析服務(wù)器Sophon SS1,并同步發(fā)布SOPHON.AI官網(wǎng),現(xiàn)系列產(chǎn)品在官網(wǎng)中已經(jīng)面向全球發(fā)售。
讀著寒武紀(jì)兩兄弟的論文進(jìn)入芯片領(lǐng)域,與地平線、寒武紀(jì)、深鑒處于同一起跑線
比特大陸(BITMAIN)成立于2013年,是世界上最大的比特幣礦機芯片公司,成功開發(fā)并量產(chǎn)了多款A(yù)SIC定制芯片和整機系統(tǒng),擁有先進(jìn)工藝28nm,16nm,12nm的集成電路全定制設(shè)計的量產(chǎn)經(jīng)驗。其中,最具代表性的是用于加密數(shù)字貨幣礦機中的BM芯片系列。據(jù)官方資料顯示,比特大陸自主研發(fā)的第五代芯片BM1387是全球功耗最低、性能最高的運算加速芯片,單片每秒可完成800億次的算法計算,量產(chǎn)規(guī)模達(dá)數(shù)十億顆。
從研發(fā)數(shù)字貨幣芯片、礦機到設(shè)立礦池,比特大陸自主研發(fā),自主布局完善產(chǎn)業(yè)鏈,而AI則是他們最新找到的應(yīng)用領(lǐng)域。不過,ASIC設(shè)計周期特別長、成本貴、應(yīng)用范圍窄,研發(fā)風(fēng)險比較大,比特大陸做深度學(xué)習(xí)ASIC的膽識從何而來?詹克團表示,實際上ASIC的設(shè)計比起GPU、CPU相對要簡單很多,而不是更困難,而深度學(xué)習(xí)算法又非常適合ASIC實現(xiàn),所以,比特大陸決定開始做深度學(xué)習(xí)芯片,并繼續(xù)發(fā)揮比特大陸做高性能計算芯片的優(yōu)勢。
至于如何與英偉達(dá)已經(jīng)構(gòu)建起來的健壯軟件生態(tài)系統(tǒng)相競爭,詹克團認(rèn)為,生態(tài)不是規(guī)劃上來的,而是在市場上打出來的?!笆紫任覀円袃?yōu)秀的團隊,在架構(gòu)設(shè)計、產(chǎn)品設(shè)計留下足夠的空間,讓自己跟舊的產(chǎn)品兼容——如果你自己跟自己都不兼容,就不可能是生態(tài)?!?/P>
“另一個就是產(chǎn)業(yè)之間要合作,今天這個時代商業(yè)的合作是大于競爭的,尤其在人工智能領(lǐng)域,有無數(shù)的處女地等待我們?nèi)ラ_發(fā),大家應(yīng)該共同把這個蛋糕做得更大。更多和合作伙伴進(jìn)行深度合作,包括開源,慢慢就可以把生態(tài)做起來?!?/P>
對于國內(nèi)的幾家芯片公司,比如地平線、寒武紀(jì)、深鑒,詹克團說,他最早是看著寒武紀(jì)陳天石老師的論文才進(jìn)入芯片領(lǐng)域的?!按蠹覒?yīng)該基本上處于同一起跑線,我很尊敬他們,他們也做得非常好?!?/P>
詹克團說:“比特大陸雖然是新進(jìn)入這個領(lǐng)域,但我們從2013年就開始做,如果一定要說我們有什么優(yōu)勢,那就是我們可能會跑得比較快一點,畢竟我們的公司的市場管理、研發(fā)管理、財務(wù),還有很多東西我們已經(jīng)在虛擬貨幣市場上經(jīng)過戰(zhàn)爭般的洗禮,虛擬貨幣這個市場又是發(fā)展非??焖俚氖袌?,所以相對來說比特大陸可能會動作會更快一點點。”
AI驅(qū)動的又一個星球級計算
以下是比特大陸聯(lián)合創(chuàng)始人、CEO詹克團在新智元AI World 2017世界人工智能大會上的演講:《AI驅(qū)動的又一個星球級計算》。
詹克團:
謝謝新智元的大會,非常周到。前面幾位老師的分享非常精彩,學(xué)習(xí)了很多東西,接下來我要給大家報告的題目是《由人工智能驅(qū)動的又一個星球級的計算》。
首先,我介紹一下比特大陸的情況,2013年成立,在過去的幾年我們主要都在做虛擬貨幣方面的芯片,目前全球的員工大概1000多人,分布在世界各地的十多個辦公室,國內(nèi)的幾個主要城市,包括香港,國外的美國硅谷、以色列特拉維夫、荷蘭阿姆斯特丹、新加坡都有我們辦公室和研發(fā)工程師。
我們用全定制的芯片設(shè)計方法去設(shè)計高速低功耗的芯片。在今年16納米節(jié)點上,我們芯片出貨量已經(jīng)超過10億只,我們商業(yè)模式非常簡單,最核心就是賣比特幣等虛擬貨幣的挖礦機,在比特幣、萊特幣這些主要的虛擬貨幣市場上,我們的占有率應(yīng)該是超過80%,甚至可能超過90%。除了研發(fā)和銷售礦機,我們還會去建設(shè)和部署大型的數(shù)據(jù)中心,我們建設(shè)了上百兆瓦的數(shù)據(jù)中心。
做成比特幣后,拿著錘子找釘子,發(fā)現(xiàn)深度學(xué)習(xí)計算芯片是好釘子
在比特幣上小有成就之后,我們感覺自己手里好像拿著一把錘子,到處看哪里都是釘子,就在找釘子的過程中,我們發(fā)現(xiàn)深度學(xué)習(xí)是非常適合用錘子對付的釘子,所以我們開始做這個深度學(xué)習(xí)計算芯片。首先,我們來說一個市場容量比較小的機會,就是互聯(lián)網(wǎng)的小視頻。今天,全球有34億個互聯(lián)網(wǎng)用戶,假設(shè)每人每天產(chǎn)生20分鐘的視頻,假設(shè)每秒鐘的視頻取兩幀出來做分析,保守一點,1幀需要0.1T做計算,就是10個Exa Flops。下面我們再看規(guī)模大一點的應(yīng)用,依然假設(shè)每個人每天30分鐘的語音,每一秒鐘的語音大概需要用1T的算力來做處理,這樣算下來就是70個Exa Flops。這已經(jīng)是比特幣全網(wǎng)算力將近一個數(shù)量級的提升。在這兩個互聯(lián)網(wǎng)小視頻里面,我們都做比較樂觀的假設(shè),并沒有考慮語音和視頻在時間和空間上的不均勻性。所謂時間上的不均勻,就是說我們沒有辦法假設(shè)全球的人都在24小時里面均勻分布著去說話,然后錄視頻,但我們依然這樣區(qū)別假設(shè)。其實,大部分情況下,大量的人會聚集在某一個晚上,或者聚集在某一個集群里面,那過一會又切換到另外一個集群,這種空間上的不均勻性我們也不會考慮。我們再看一個大一點的需求,左邊這個圖,Chris Rowen教授剛才也分享了這張圖,這是他給我的。橘色的線表示全球的攝像頭的數(shù)量,藍(lán)色的線代表全球的人口,2015年攝像頭超過了人口的數(shù)量,并且呈指數(shù)級上漲。也就是說,在2017年全球的攝像頭數(shù)量達(dá)到了140億只,然后年復(fù)合增長率200%。這里面我們抽取一小部分來做分析,就是這標(biāo)紅色監(jiān)控的攝像頭,在2017年,監(jiān)控攝像頭僅占所有攝像頭的3%,大概也就是4-5億只的樣子。一路的攝像頭用0.5T的計算,2017年就需要210個Exa,用來處理全球的監(jiān)控攝像頭。按照現(xiàn)在的趨勢,監(jiān)控就成了一個很合理的硬需求,所以我們做這樣一個假設(shè)是合理的。這是7×24小時在計算的,這200多個Exa就是比特幣網(wǎng)絡(luò)兩個數(shù)量級提升。
前面舉了三個例子,加起來的計算量大概是300個Exa,這300個Exa是什么概念?這里我列了人類已知的全球四大計算種類。我們先看一下PC和筆記本,PC芯片全球年出貨是2.5億只,假設(shè)每個CPU是兩個core,主頻2.5GHz,加上PC和筆記本壽命是2-3年,應(yīng)該是有3.8個Exa。手機出貨量是每年15億只,假設(shè)使用壽命是兩年,那么這個全球的手機折合下來就是9個Exa,比特幣我們剛才講了10個Exa,剛才我們講到了300個Exa跟這一比,已經(jīng)是兩個數(shù)量級提升,這是非常有意思的東西。這么大的計算能力,它的功耗又會是什么樣子呢?下面我們看一下功耗,首先我們還是看一下PC筆記本,假設(shè)PC和手機的時間都是30%,不用的時間是70%,假設(shè)server是80%,還有比特幣,就是用我們最好的機器來做假設(shè),大概是100兆瓦左右。這樣算下來,應(yīng)該在1000-3000個兆瓦之間。這時我們把Deep Learning的功耗加進(jìn)來,假設(shè)10瓦1T這應(yīng)該是很容易做到的,加3000個兆瓦,是什么概念?這是我們盧宇彤老師他們做的天河二號100倍的規(guī)模。
前面舉了三個例子,顯然很多東西是沒有被列舉進(jìn)來的,這里漏掉了最大的一個東西,就是這個智能駕駛,根據(jù)IHS的數(shù)據(jù)的話,到2035年會有1000多萬輛的自動駕駛汽車,假設(shè)每秒鐘會產(chǎn)生大概200個MB/sec數(shù)據(jù),再加上4個小時,就是1000多個Exa,又進(jìn)了一個數(shù)量級。但是時間到了2035年,我覺得在1000個Exa還算是小事情,不算是大的事情。
摩爾定律走向終結(jié),從現(xiàn)在往后看,我們是否還能實現(xiàn)性能1000倍的提升?
在人類過去的30年里面,對于超級計算來說,基本上都是每十年翻1000倍,從今天往回退的五/六年都是我們中國人拿第一,例如天河二號。
隨著摩爾定律的減緩,甚至終結(jié),從現(xiàn)在開始往后面看十年,我們是否還能實現(xiàn)1000倍的性能提升?這個問題值得我們做計算的朋友去思考。對于深度學(xué)習(xí)計算,最大的挑戰(zhàn)依然是功耗,包括大規(guī)模集群的功耗,芯片的功耗。另外一個很大的挑戰(zhàn)就是Memory wall,我感覺都快窮途末路,現(xiàn)在有這種在跟Memory wall結(jié)合在一起的計算,可能也不能解決所有的問題。
肯定算法上面要出現(xiàn)更多支持并行處理的計算。此外,到目前為止,編程軟件技術(shù)都不是特別成熟,這一塊我覺得也值得學(xué)術(shù)界和產(chǎn)業(yè)界一起來做更多的探索。
深度學(xué)習(xí)做的,實際上是多維矩陣計算,云端深度學(xué)習(xí)往張量(Tensor)處理靠攏非常自然
深度學(xué)習(xí)要做什么事情?它要做的計算本質(zhì)上是一個多維的矩陣計算,因此我們可以說,所謂的Deep Learning計算,站在做芯片的視角來看,非常簡單,就是做多維矩陣的各種計算。怎么來做Tensor的計算?這么大的計算量在計算機的體系結(jié)構(gòu)上面要做一定的創(chuàng)新,傳統(tǒng)的CPU顯然不合適。因此,從各種產(chǎn)業(yè)和論文都可以看到,其實深度學(xué)習(xí)用在Cloud端高性能芯片的體系結(jié)構(gòu),都已經(jīng)慢慢往Tensor架構(gòu)靠攏。
從Cloud端看Deep Learning計算非常簡單,一個是性價比和能耗比,對于Deep Learning來說,確實在這兩個方面會表現(xiàn)的相當(dāng)好。因此對于云端的Deep Learning計算,我認(rèn)為谷歌提出“TPU”張量計算處理器,Tensor這個名字是很合適的。
終端深度學(xué)習(xí)更加困難
但Deep Learning計算還有另外一種芯片應(yīng)用,就是終端,我個人認(rèn)為這是更加困難的,做這種架構(gòu)由于不得不受限于單芯片的功耗,不能太大,一般來說這種芯片很難超過10瓦,所以設(shè)計這種的體系結(jié)構(gòu)是非常有挑戰(zhàn)的一件事情。
在這種芯片里面,一般來說,CPU是一定要參與到數(shù)據(jù)的搬運和計算任務(wù)的調(diào)度里面去的,所以剛才前面寒武紀(jì)也講到了它的市場方向,我覺得寒武紀(jì)確實是一家非常偉大的公司,當(dāng)年進(jìn)入這領(lǐng)域就看著他們兄弟兩個的論文進(jìn)去的。他們現(xiàn)在依然是去啃Deep Learning這個領(lǐng)域里面最難啃的這塊骨頭,真的是非常厲害。
谷歌TPU重拾脈動陣列,計算機架構(gòu)發(fā)展循環(huán)往前
下面我們來看一下什么是Systolic,Systolic就是脈動陣列,它用來處理Deep Learning運算有得天獨厚的優(yōu)勢,用硬件實現(xiàn)多維的數(shù)據(jù)搬運和計算任務(wù)的調(diào)度,就可以獲得非常高的性能,比較適合用在云端做加速。我們都知道谷歌的TPU是基于Systolic的架構(gòu),但Systolic并不是一個太新的東西,Systolic的年齡有可能比我都大。我隨便查了一下,能查到的比較早的就是1984年的文獻(xiàn)里面,就把Systolic描述得比較清晰,之后也有一些論文對Systolic做各種各樣的描述。
其實計算機的發(fā)展一直都是這個樣子,每次有一個新的計算任務(wù)出現(xiàn)的時候,就會有很多的專家教授還有工程師去提出各種各樣新的解決方案來應(yīng)對這個問題。
比特大陸第一代Deep Learning計算的芯片發(fā)布
下面給大家報告一下我們做的產(chǎn)品,BM1680是我們第一代Deep Learning計算的芯片,我們從2015年的年底開始設(shè)計這個芯片,在2017年的4月份推出,2017年6月份經(jīng)過前面幾個月的測試開發(fā),今天說這個芯片已經(jīng)可以開始量產(chǎn)了,或者說個別指標(biāo)再快一下就可以量產(chǎn)了。
這是用我們芯片做的深度學(xué)習(xí)加速卡,在這個卡上面我們把這些Googlenet、VGG等等這些經(jīng)典Net也都跑起來了,這是對于性能指標(biāo),如果大家比較關(guān)心的話,可以上我們的網(wǎng)站看一下具體的資料。
這是用我們芯片做的雙芯片卡,功耗也基本是加倍的。這是把卡插在里面做的這樣一個Server,在這Server上面,我們實現(xiàn)人臉檢測、行人的檢測和屬性的分析、人臉識別。
下面我們給大家做一下演示。這個演示做深度學(xué)習(xí)算法的大家都很熟悉,沒有什么新鮮的,都是車在跑,然后用一個框框把它框住,這里我告訴大家一個秘密,我們今天這個新鮮之處,不同之處在哪?就在于這里的算法,凡是涉及到神經(jīng)網(wǎng)絡(luò)計算的這些算法,全部都是跑在我們前面介紹的BM1680這個芯片上面的,這是唯一的秘密,其他的都是一樣的。
下一個環(huán)節(jié)是人臉識別的演示,早上有在我們的展臺做過注冊的朋友,一會可以上來充當(dāng)一下志愿者,看能不能認(rèn)出來?謝謝!已經(jīng)認(rèn)出來了。
下面進(jìn)行最后的廣告環(huán)節(jié),首先我給大家報告一下,我們后面的第二代芯片1682下個月發(fā)布,也是采用16納米工藝,功耗差不多還是30瓦,計算能力大概是3T。第三代芯片會在明年的9月份發(fā)布,會采用12納米工藝,功耗還是涉及在30瓦,計算能力到60T,應(yīng)該沒有什么問題。這個芯片我們會只持更多的數(shù)據(jù)精度,把16位和8位給支持起來。再往后第四代、第五代我們還會努力的遵循快速迭代、精益求精這樣一個路子,繼續(xù)往下,一代一代的把它做好,希望大家跟我們有更多的合作。
比特大陸在Deep Learning,在AI領(lǐng)域的使命,或者說我們的目標(biāo),和我們在數(shù)字貨幣上面做的事情一樣,通過一點一點的、一代又一代的芯片,一代又一代的產(chǎn)品不斷迭代,把產(chǎn)品做到極致,做到最好,服務(wù)好需要用到深度學(xué)習(xí)加速服務(wù)的用戶和應(yīng)用。謝謝!