「科技進步極大降低了創新所需的經濟門檻,但是偉大所需的精神門檻——勇氣,從沒有降低過」。

這兩年,算法人誓要「造芯」,已不再是新鮮事。

當摩爾定律開始走下神壇,基于 AI 算法的算力需求卻噴涌而出,供不應求,于是越來越多的團隊嘗試踏入「無人區」,以「芯片+算法」組合拳打造更牢固的護城河。

但造芯何嘗容易,芯片和算法之間存在著巨大鴻溝,芯片工藝繁瑣、設計與優化技巧強,試產的風險和投入都極大,讓人望而卻步。

「有錢能做得出算法,有錢卻不一定能造得了芯片,」芯片老將曾這樣規勸來路上的算法人?!冈煨尽沟目谔柟倘豁懥?,如今真正能落地的算法團隊卻是一個巴掌數得過來。

5 月 9 日,依圖科技帶著 200 路攝像頭來到上海中心,向外界宣講這顆始于兩年前的首款云端AI芯片「求索」。

「依芯求索」,是一顆能同時兼顧云端和邊緣端場景的 SoC 級芯片,采用自研架構, 16 nm 制程,功耗單路數小于 1W,性能功耗比為 0.75 TOPS/W。在視頻解析、自動駕駛等場景實測中,表現均高于英偉達同類產品。云端場景下,依圖單位路數功耗可優出 5-10 倍。

「科技進步極大降低了創新所需的經濟門檻,但是偉大所需的精神門檻——勇氣,從沒有降低過?!?/p>

這是依圖創始人兼 CEO 朱瓏為該顆芯片寫下的注解,公司成立7年以來,朱瓏首次為依圖發布會站臺。依圖的「勇氣」始于 2017 年,當時團隊不過百人規模,公司在資金儲備和經濟實力上都不具備「造芯」的最佳條件,但朱瓏表示,「敢把房子賣了賭今天這個答案非常重要」。

在芯片發布前夕,機器之心對話依圖首席創新官呂昊,獨家解密依圖首款AI芯片背后的更多故事。通過進一步交流,我們挖掘出這家出色的算法公司對于行業需求、對于算法發展趨勢深刻的洞察,以及果斷有力的預判和執行。

呂昊對機器之心說道,「兩年前,我們決定做這款芯片,就非常相信算法廠商垂直整合的未來趨勢?;趯λ惴?、對行業的深刻理解,加上芯片的設計能力,從垂直的場景發力,不僅于現在能獲得優勢,未來也會變得越來越強?!?/p>

公開數據顯示,依圖最近一輪融資發生在 2018 年 7 月,完成 3 億美元 C+ 輪融資,公司整體投后估值突破 150 億元。談到新輪融資計劃時,呂昊沒有給出直接回應,他表示「我覺得市場往后怎么看我們,對我們是不是有改觀,是更有趣的事吧。依圖發布芯片對整個市場也會有一個影響?!?/p>

兩年前,正是基于依圖對于算法發展趨勢的預判有了現在的云端AI芯片,那么未來兩年呢?

「整體來說就是兩個趨勢。一個是垂直整合,這是一個非常大的機會,也提供了非常多增強自身產品和未來的機會,另一方面就是『算法即芯片』?!箙侮徽f道。

200 路攝像頭現場實測的底氣

依圖云端 AI 芯片「questcore」,中文名為「依芯求索」,采用 16nm 制程,ARM + ManyCore 組合架構,其中 ManyCore 架構由依圖和 ThinkForce 聯合研發,采用依圖自有優勢算法,從設計到制造實現了全面國產化,作為服務器芯片可以獨立使用。目前,該顆芯片已經實現量產。

在性能表現上,questcore 單芯片可支持 64 路視頻高清實時解碼,支持 50 路視頻實時解析,1U 可支持 200 路解析。芯片自帶網絡支持,支持虛擬化,支持 Docker,支持通用視覺的檢測、分類、識別、分割、跟蹤等任務。

在兼容開發和接口拓展方面,questcore 支持 TensorFlow、PyTorch、Caffe、MXNet 等主流深度學習框架,支持 PCle 3.0 接口。

同時支持云端、邊緣側計算是 questcore 的最大亮點之一。

在單位路數的功耗對比中,同樣帶動 200 路攝像頭解析和比對,4 顆依圖 questcore 、8 顆英偉達 T4+ 2 顆英特爾 CPU、8 顆英偉達 P4+2 顆英特爾 CPU 實測對比:

  • 8 顆英偉達 T4 + 2 顆英特爾 CPU 方案單位路數功耗是依圖方案的 4.7 倍,

  • 8 顆英偉達 P4+2 顆英特爾 CPU 方案是依圖方案的 9.4 倍。

在路數性能的對比中,依圖前沿系列邊緣盒子是英偉達 TX2 性能的 2 倍。

朱瓏認為,正是芯片單位面積的智能算力的「斜率」優勢奠定了依圖芯片能在最終性能表現超過巨頭英偉達。

據機器之心了解,questcore 針對 int8 數據(8 位整數數據類型)進行加速,能實現性能和功耗比呈量級提升。同等功耗下,questcore 可提供市面現有同類主流產品 2~5 倍的視覺分析性能,強調并發性需求的滿足。

依圖方面認為,與 AI 訓練不同,AI 推理并不需要很高的精度,實際上,int8 的低精度數據類型就足以滿足當前絕大多數的云端智能視頻分析/視覺推理計算需求。

依圖強調,questcore 不只是一顆 AI 加速模塊,是一顆完整的具有端到端能力的 SoC 級處理器,可獨立于英特爾 x86CPU 使用。為均衡的端到端處理能力,questcore 平衡了 CPU 計算、AI 計算,內存和數據通信等多種需求。

為進一步驗證產品實力,現場依圖搬來 200 個攝像頭進行現場實測。采用 GPU 方案,光是 27 路攝像頭,需要一顆 2000 美金的英偉達 P4 卡才能帶動;200 路視頻流的實時解析和比對則需要 4U 8 塊 CPU,2 塊 GPU,而依圖只需要 1U 4 顆 AI 芯片。

在比對過程中,相似度超過 85 分視為同一個人,現場演示十分鐘左右,未發生一起誤報。

200 路攝像頭足夠滿足一個智能社區的計算需求,朱瓏表示,采用依圖 questcore 方案只需要 5 分鐘就能搭載后端服務器。

在銷售模式方面,questcore 芯片將與依圖的智能視覺分析軟件結合,作為軟硬件一體化的解決方案對外銷售。主要面向對云端智能視頻實時分析等應用具有強需求的企業環境,比如交通運輸、公共安全、智慧醫療和智慧零售等行業。

目前,questcore 依圖主要推出云端、邊緣端兩類產品方案。前沿系列邊緣盒子,高性能、低功耗的小型智能處理邊緣節點,可支持 16 路實時視頻分析,功耗小于 10W,支持人臉識別、視頻結構化、可疑物品檢測、姿態分析等應用,靈活應用于無機房場景。

原子系列云端服務器,1U 支持 200 路視頻全解析,功耗小于 200W,2U 支持 800路視頻全解析,功耗小于 600W。據機器之心了解,搭載 QuestCore 的依圖原子服務器,將為今年 11 月在上海舉行的第二屆世界進口博覽會提供安保服務。

解密依圖 AI 芯片背后的更多故事

以下為機器之心與依圖首席創新官呂昊對話實錄,經編輯整理。

Q:AI芯片項目是從什么時候啟動的?

A:2017年2月,我們開始有動作投入這件事情。2017年5月份全速啟動。我們今天給大家看的不只是一顆芯片原型,而是當下就能商用量產的產品。

Q:2017年依圖投資芯片創業團隊ThinkForce,這顆芯片和ThinkForce存在什么聯系嗎?

A:該顆芯片采用合作研發的模式,由依圖提供視覺算法,ThinkForce承擔硬件研發。ThinkForce是依圖在2017年戰略投資的AI芯片初創團隊。ThinkForce 擁有芯片研發全鏈路能力的團隊,核心成員來自 IBM、AMD、Intel、Broadcom等芯片龍頭企業,成員均具備十年以上專業芯片研發設計經歷,經手過40余款不同芯片的量產,總銷售額高達數十億美元。

Q:依圖芯片的開發團隊主要負責哪個部分?

A:芯片設計過程中有非常多的迭代。首先,在早期我們要做什么樣的芯片,跑什么的算法,都是基于雙方溝通。因為目標很簡單,要把依圖算法跑好。

然后,依圖算法需要多少算力,芯片能設計出多少算力?滿足算力需要投入多少?這些都需要我們反復迭代,前期的設計和迭代都是聯合研發的模式。

接著,到芯片設計階段,設計后跑大量的BenchMark,都由我們一起來跑。到后期,芯片的設計出來要驗證,驗證什么?這不僅僅是硬件的問題,還有很多軟件的問題,比如英偉達的TensorRT的庫優化。因為我們支持Tensorflow、PyTorch這些模型,怎么把它去優化成硬件上面模型,都是非常偏軟件和算法的優化。

Q:依圖設立芯片項目的初衷是?

A:我們深耕行業,有非常多的產品和解決方案。對于市場需求、對于AI的普及有最及時、最深刻的理解。

2017年,雖然AI計算市場的需求并不算明朗,但我們對于AI與算力需求的高速增長,以及同類產品的競爭性,都會有一個預判。

那個時候,比較明顯的感受是摩爾定律的統治時期結束了。這也是整個行業里的共識,凡是離應用和場景足夠近的廠商,都有這方面的戰略考慮。

Q:17年到18年,的確有很多算法公司投身到AI芯片領域,但主要傾向終端的垂直市場,比如說安防、自動駕駛、物聯網,為什么依圖會選擇云端的推理市場?

A:需求一定來自行業,這是最直接的需求。你提云端,云端也可以只是為安防,也可以只是為自動駕駛。

Q:但是云端和終端存在很大差異,市場環境和計算復雜程度都不一樣。普遍認為終端市場需求量比較大,也好落地。但云端市場已經很擁擠,幾乎被英特爾、英偉達等巨頭壟斷,依圖為什么要去切這樣一個市場?

A:依圖芯片兼顧了云端和邊緣端。云端和邊緣端沒有太本質的區別,或者說云端和邊緣端的區別要小于邊緣和終端的區別。

傳統大廠能力非常強,包括架構設計、性能優化等方面,這是數十年積累完成的。但我們認為,大廠從其本質上講是為了賣更多的芯片,賣更多的硬件,盡量滿足更多軟件廠商、算法廠商的需求。這種模式和垂直整合的算法廠商做芯片有一定的區別。

摩爾定律終結代表了芯片設計需要換個思路才能獲得更多的成長空間,那么定制化是一個路徑,去掉一些通用性的部分,比如傳統硬件的分支判斷、邏輯單元等電路。算法廠商來做芯片,不完全考慮通用性,更多從自身行業需求出發,考慮我要做什么樣的芯片。

Q:你的意思是,依圖的芯片更講究在特定場景下滿足計算需求。

A:對。

Q:那依圖主要聚焦在哪些垂直場景,或者哪些計算需求。

A:QuestCore是一顆視頻解析/推理芯片。首先它聚焦在視頻上,關注能接多少路視頻,能分析多少路視頻,這和做一顆終端芯片有很大區別,終端是你只需要服務一路視頻。

比如說特斯拉芯片,就是聚焦在處理這輛車上面視頻能達到多少FPS(面每秒傳輸幀數)。因為做云端芯片,我們更關心能同時處理多少路的視頻。所以應用常決定了你的設計導向。

Q:切入特定市場能在一定程度避開和巨頭的直面競爭,但是否意味著市場體量相應地會減少?

A:這是很直接的一個問題,因為做芯片首先門檻比較高,然后投入也比較大,做一塊賣座的芯片是極為困難的。比如英偉達做GPU是比較通用的計算平臺,而定制化自動駕駛的芯片,只有特斯拉這樣的廠商會做,因為他自己有自己的體量,然后他自己又明白需求。

Q:這款芯片是想要替代華為還是要替代英偉達?

A:就是給我們自己的產品做一個升級。我們很多產品都是用的英偉達的解決方案,我們還是華為的合作伙伴,非常深度的合作伙伴。

Q:你們更傾向于給到固定客戶,比如說作為項目打包給安防客戶,還是怎樣的輸出方式?

A:我們認為是自產自用的模式,芯片會納入軟硬件一體化的解決方案里對外銷售。主要面向對云端智能視頻實時分析等應用具有強需求的企業環境,比如交通運輸、公共安全、智慧醫療和智慧零售等行業。

Q:通常來說,芯片都是以量取勝,量大了,成本才可以得到進一步優化,那么規模比較小的情況下,會不會導致我們的成本很高,可能這部分業務會虧錢?

A:我覺得這個是外界對依圖的體量不了解。其它AI公司做這個事情可能有這個困擾, 但我們應該沒什么問題。因為依圖的在很多行業里面的體量挺大的。

Q:您剛才提到邊緣端和云端其實很相近,為什么這么說,邊緣端和終端有什么不同?

A:實際上,邊緣是云端的一個拓展。我們的愿景當然是希望網絡足夠快,不需要邊緣這樣的節點出現。

但是,因為網絡帶寬有限,所以要把一些計算放在邊緣側,然后再匯總到云端。邊緣的出現是為了解決網絡帶寬無法承受的問題。這一點導致了它的接口設計、軟件、技術棧,都和云端有非常多的相似性。

Q:提到視頻數據,在解析之前的預處理也很關鍵,比如編解碼?

A:對,我們芯片提供64路高清視頻實時解碼。

Q:依圖更擅長做算法和軟件,自研云端AI芯片的優勢在哪里?

A:首先,我們算法精度遙遙領先,過去 4 年依圖的人臉識別算法精度提升了 10 萬倍。目前我們的人臉識別精度,可能比市場上的第二名要高上一百倍。這是為什么我們的產品競爭力很強,在市場上的口碑也非常好的原因。

當然,芯片的門坎很高,投入很大。我們過去兩年里沒有在吹噓自己做了芯片,我們并不是為了「做芯片」而做芯片,主要是為了提升產品的競爭力,繼續深耕行業來做這個研發,初衷非常簡單。

另外,我們的優勢還在于對行業的理解。這個優勢我覺得不僅是體現在現在。我們決定做這款芯片的時候,是非常相信垂直整合的,有對算法深度的理解,有對行業深度的理解,加上有芯片的設計能力,從垂直的場景發力會變得越來越強。

Q:依圖的基因偏向算法和軟件,做芯片的團隊如何組建和完善?

A:我們和ThinkForce聯合研發。在研發過程中,首先你得知道你設計的芯片是干什么的,具體指在復雜的designspace里做什么樣的權衡,這個非常難。以前做體系架構的人最困擾的一個問題就是確定芯片為哪些程序做優化,因為程序太多了。如果這個事情定義清楚了,那余下的才是芯片的設計能力。

Q:您提到最初我們是業務驅動,所以做芯片說為了讓依圖的解決方案從軟件到硬件有一個更好的表現?

A:對。我們的訴求當然是找到一個最具性價比的,能夠跑世界上精度最高算法的平臺。

Q:有沒有考慮用 FPGA 去做升級或者擴容呢?

A:我們更多拿FPGA來做驗證。也就是你有一個想法、一些設計理念,可以很快用FPGA做一些定制化計算,驗證性能是否能達到要求,再進一步優化功耗、體積等指標。

我們知道云端現在很多廠商,公有云都提供了FPGA的服務,可以幫助你非??焖衮炞C你的想法。但是我覺得作為工具的角度,如果要追求極致是不太會停留在FPGA這一步。道理很簡單,你會拿一個樹莓派做很多驗證,這個硬件挺酷,挺有用,但你不會把它作為一個終極產品推向市場。你一定會做自己的板子,做自己的外觀形態,最后再推到市場上。

Q:后續產品的迭代也將會是這樣的模式嗎?由依圖和ThinkForce雙方配合去完成后續的產品更多的設計?

A:對?,F在已經在籌備下一代芯片了。

Q:這款芯片的核心算法是依圖的,依圖的算法在不斷迭代,但芯片的速度可能沒有那么快跟得上。這個問題如何解決?一些算法廠商認為FPGA方案的靈活性在這個情況下可以發揮出來。

A:這個矛盾是存在的,算法發展非???,而且變化也非常大,但芯片的周期卻比較長,第一塊芯片需要兩年,第二塊芯片可能快一點。但是,我們做芯片當然會意識到這一點,所以難度在于兩年前你得預測到兩三年之后的趨勢是什么,而不是說為兩年前那個狀態做一顆芯片。

Q:芯片已經量產,那有沒有已經落地的項目?

A:有。已經有客戶簽單。

Q:醫療場景能用嗎?

A:醫療可以用。它主要是針對視頻和圖像處理做了定制化。因為我們有很多套算法,從視頻、圖像,語音識別、語義理解等等。這塊芯片主要就是為我們大量的圖像和視頻算法做定制的,說明有一定通用性了。

Q:自產自用需要極大規模的業務量和前期投入才能支撐,代表公司包括谷歌云的TPU、華為云的泰山等。目前采用自研芯片可能會增加項目成本,客戶怎么看這個事情?

A:舉個例子,功耗能省1/3,對數據中心是很大的一筆開支。在客戶的感受非常強烈,而不僅僅是打個九折的概念。

Q:具體看客戶有一些什么樣的反饋?

A:從我們和一些早期客戶的交流來看,他們對于questcore?在功耗上面的節省和空間上的節省是非常興奮的。

Q:大家對依圖的認知是依圖是一家AI+垂直行業,聚焦在應用層的技術落地公司,現在我們向產業鏈的上游延伸,可以理解為依圖在轉型嗎?至此之前,類似的算法公司也提出過新的戰略方向,依圖是不是因為這款芯片的推出也有一些改變呢?

A:我們從一開始就深耕行業,全面發展。

Q:所以對依圖的認知這是一家芯片公司,也是OK的?

A:依圖處在上海,上海是中國非常重要的集成電路的中心,這里有非常多的人才和資源。我前面說了垂直整合,是因為依圖非常清楚自己想要做什么。我們的信仰就是讓AI去來解鎖未來,一個AI更好助力人類的未來,我們對于這個信仰非常專注。此外,我們也做自己商業上更適用的事情,給自己帶來更強的潛力。

Q:在中國做計算機視覺的公司中,其實不只依圖一家有這個想法,整個行業的大方向會都可能是垂直整合,做了算法以后還會自己研發芯片,依圖會這么認為嗎?還是說這是一個比較小眾的方向?

A:垂直整合能夠帶給你可能更強的未來。因為摩爾定律的終結意味著再沒有免費的午餐了, 不可能等兩天就能買到更快的硬件,所以要靠架構調整來改變。

軟件和硬件有一個天然的隔閡,怎么去打破這個隔閡,利用新時代的挑戰去做更有競爭力的算法,更有競爭力的芯片,是非常大的機會。

在能力上,依圖一直以來都在做世界級的算法,所以我們也是在做世界級的芯片,其他人要做到這一點并不會那么容易。

Q:依圖有沒有新的融資計劃?

A:我是偏技術這一側,不太清楚這個問題。我覺得市場往后怎么看我們,對我們是不是有改觀,是一件更有趣的事。這對整個市場也會是一個挺有意思的刺激。

Q:2017年做芯片是基于我們對兩年后的一個預判,所以才有了這個項目。那么未來兩年呢?

A: 今年將會AI芯片頻出的一年。谷歌、特斯拉,很多公司在做垂直整合,這是一個非常明顯的信號,是廠商行業落地的必然性。

在算法即芯片的時代,為算法定制做非常多的設計、做豐富的定制服務,才能讓算法表現得更好。

整體來說就是兩個趨勢、一個是垂直整合,我覺得是一個非常大的機會,也提供了非常多的增強自己產品和未來的機會,另一方面就是「算法即芯片」,算法指導芯片的設計能帶來的芯片的改動也將是一個非常大的趨勢。

您可以復制這個鏈接分享給其他人:http://www.zaolin.site/node/714