
一、前言
芯片采購網專注于整合國內外授權IC代理商現貨資源,芯片庫存實時查詢,行業價格合理,采購方便IC芯片,國內專業芯片采購平臺。
人工智能,人工智能(AI)廣泛應用于各種應用。硬件、算法和數據是人工智能的三大支撐,其中硬件是指運行 AI 算法芯片及相應的計算平臺。由于使用場景越來越多,需要處理的數據量越來越大,人們的需求也越來越高,這使得AI硬件平臺上必須有效地運行算法。目前主要用于硬件。 GPU 神經網絡并行計算,還有 FPGA 和 ASIC 也有未來異軍突起的潛力。
GPU它被稱為圖形處理器,是顯卡的心臟 CPU 類似地,它只是一種專門從事圖像操作的微處理器。GPU 在浮點計算和并行計算中,可以提供數十倍甚至數百倍 CPU 性能。但在應用于深度學習算法時,有三個局限性:
并行計算優勢在應用過程中不能充分發揮
硬件結構固定不可編程
操作深度學習算法的效率遠低于 ASIC 及 FPGA。
FPGA用戶可以根據自己的需要重復編程,稱為現場可編程門陣列。 GPU、CPU 相比之下,高、能耗低、可硬件編程等特點。FPGA 比GPU 功耗較低,比例較低 ASIC 開發時間短,成本低。FPGA也有三種限制:
基本單元的計算能力有限;
需要提高速度和功耗;
FPGA 比較貴。
ASIC(Application Specific Integrated Circuit)是為特殊目的設計的集成電路。不能重新編程,效率高,功耗低,但價格昂貴。近年來出現出現TPU、NPU、VPU、BPU各種令人眼花繚亂的芯片,本質上都屬于ASIC。ASIC不同于 GPU 和 FPGA 定制的靈活性 ASIC 一旦制造完成,就不能改變,所以初始成本高,開發周期長,進入門檻高。目前大部分都是有的 AI 算法也擅長芯片研發的巨頭,如 Google 的 TPU。與神經網絡相關的算法完美適用,ASIC 優于性能和功耗 GPU 和 FPGA,TPU1 是傳統 GPU 性能的 14-16 倍,NPU 是 GPU 的 118 倍。寒武紀已發布對外應用指令集,預計 ASIC 將是未來 AI 芯片的核心。
綜上所述,在性能方面,ASIC優于其他幾種計算方案。ASIC在眾多芯片中,NPU性能非常突出,下面介紹一下NPU。
二、NPU介紹
所謂NPU(Neural network Processing Unit), 即神經網絡處理器。顧名思義,它用電路模擬人類的神經元和突觸結構!如果你想用電路模仿人類的神經元,你必須把每個神經元抽象成一個激勵函數,它的輸入是由連接神經元的輸出和連接神經元的突觸決定的。為了表達特定的知識,用戶通常需要調整人工神經網絡中的突觸值、網絡的拓撲結構等。這一過程稱為學習。學習后,人工神經網絡可以通過學習的知識來解決特定的問題。
由于深度學習的基本操作是處理神經元和突觸,而傳統的處理器指令集(包括x86和ARM等)是為了開發一般計算,其基本操作是算術操作(加減乘除)和邏輯操作(和或非),通常需要數百甚至數千個指令來完成神經元的處理,深度學習的處理效率不高。此時,我們必須找到一種新的方法來突破經典的馮·諾伊曼結構!
存儲和處理在神經網絡中是一體的,都體現在突觸權重上。 而馮·在諾伊曼結構中,存儲和處理是分開的,分別由存儲器和計算器實現,兩者之間存在巨大的差異。用現有的基于馮·經典的諾伊曼結構計算機(如X英偉達86處理器GPU)運行神經網絡時,不可避免地會受到存儲和處理分離結構的限制,從而影響效率。這也是專門針對人工智能的專業芯片對傳統芯片具有一定先天優勢的原因之一。
NPU典型代表國內寒武紀(Cambricon)芯片和IBM的TrueNorth。以中國寒武紀為例,2016年3月,中國科學院計算技術研究所陳云姬和陳天石研究小組提出了世界上第一個深度學習處理器指令集DianNaoYu。DianNaoYu指令可以直接處理大規模神經元和突觸,一組神經元可以通過一個指令處理,并為芯片上神經元和突觸數據的傳輸提供一系列特殊支持。
三、寒武紀NPU介紹
寒武紀科技于2016年發布了世界上第一個終端AI首款商用神經網絡處理器(NPU)“寒武紀1A”(Cambricon-1A),智能手機、安全監控、可穿戴設備、無人機、智能駕駛等終端設備的主流智能算法能耗比完全超過傳統CPU、GPU。其高性能硬件架構和軟件支持Caffe、Tensorflow、MXnet等主流AI開發平臺。可廣泛應用于計算機視覺、語音識別、自然語言處理等智能處理的關鍵領域。
2017年,寒武紀科技發布了第二代NPU寒武紀1的架構H”(Cambricon-1H),該系列比第一代產品1A該系列的能效比提高了數倍,可廣泛應用于計算機視覺、語言識別、自然語言處理等智能處理的關鍵領域。其中,Cambricon-1H16版本的IP作為1H2566系列高性能版MAC 5126位浮點運算器MAC 8位定點運算器。在1GHz在主頻下,16位浮點神經網絡的峰值速度為0.5Tops;8位定點神經網絡運算的峰值速度為1Tops。Cambricon-1H8版本IP作為1H512MAC 8位定點運算器。在1GHz在主頻下,8位定點神經網絡運算的峰值速度為1Tops。Cambricon-1H8mini版本IP作為1H2566系列輕量級版MAC 8位定點運算器。在1GHz在主頻下,8位定點神經網絡的峰值速度為0.5Tops。
2018年,寒武紀科技發布了第三代IP寒武紀1產品M”(Cambricon-1M),世界上第一個臺積電7nm工藝制造,能耗比5Tops/W,即每瓦特運算5萬億次,提供2Tops、4Tops、8Tops滿足不同場景、不同量級的三種規模處理器核AI處理需求,支持多核互聯。寒武紀1M前兩代處理器延續IP產品寒武紀1H/1A卓越的TracoPower代理單個處理器核可以支持完整性CNN、RNN、SOM進一步支持多元化的深度學習模式SVM、k-NN、k-Means、決策樹等經典機器學習算法支持本地培訓,為視覺、語音、自然語言處理和各種經典機器學習任務提供靈活高效的計算平臺,可廣泛應用于智能手機、智能揚聲器、智能攝像頭、智能駕駛等領域。
四、Cambricon-1A NPU應用
這里首先介紹華為海思麒麟970手機處理器,因為它是世界上第一個人工智能移動計算平臺,是業內第一個獨立的NPU(Neural Network Processing Unit)手機芯片專用硬件處理單元。麒麟970創新集成NPU創新設計了專用硬件處理單元HiAI移動計算架構,它AI性能密度明顯優于CPU和GPU。相較于四個Cortex-A73核心處理相同AI任務,新的異構計算架構有約 50 倍能效和 25 性能優勢倍,圖像識別速度可達2000張/分鐘左右。如此強大NPU寒武紀使用的專用硬件處理單元Cambricon-1A系列的IP,即麒麟970芯片集成寒武紀1A處理器作為其核心人工智能處理單元(NPU)。
————————————————
版權聲明:本文為CSDN博主「耐心的小黑」遵循原創文章CC 4.0 BY-SA版權協議,請附上原始來源鏈接和本聲明。
原文鏈接:https://blog.csdn.net/qq_39507748/article/details/109402395
- 如何簡單高效地備份數據?Crucial英瑞達為您支招!
- 第二代英特爾展示Thunderbolt 帶寬達雙向80Gb/s
- 中國供應鏈執行市場概覽報告從幕后到舞臺發布
- 長安汽車配備中國核心LTE Cat.1車級芯片模塊實現商業化
- 瑞薩亮相CITE 2022,展示AI、IoT全新方案
- 微軟承諾刪除競業限制條款 普通員工可以自由跳槽到競爭對手
- Wind River Studio為基于Linux安全智能系統解決管理問題
- 第二大存儲芯片制造商SK海力士將減少投資 存儲降價
- 英特爾計劃在歐洲投資360億美元 大大提高歐洲半導體產能的欲望
- 人工智能和數字雙胞胎的起源
- 據悉,京東方已被三星電子列入LCD主要供應商名單
- 消息稱 vivo 將于 8 每月在俄羅斯銷售 vivo T1 智能手機系列
