今天,全球芯片及電子系統(tǒng)設(shè)計自動化(EDA)軟件巨頭Cadence首次在國內(nèi)發(fā)布Tensilica系列的兩款新品: Tensilica DNA 100處理器IP和Tensilica HiFi 5音頻/語音數(shù)字信號處理器IP。此前,DNA 100于9月19日在德國發(fā)布,HiFi 5 DSP于10月31日在美國發(fā)布。
其中,Tensilica DNA 100是Cadence首款深度神經(jīng)網(wǎng)絡(luò)加速器AI處理器IP,將于今年12月向部分客戶提供,預(yù)計明年第一季度全面上市。Tensilica HiFi 5 DSP是Cadence首款為高性能遠(yuǎn)場處理和AI語音識別處理量身優(yōu)化的IP核,在基于神經(jīng)網(wǎng)絡(luò)的語音識別算法上提供高達4倍的改進。
Cadence公司IP事業(yè)部Tensilica資深產(chǎn)品總監(jiān)Lazaar Louis、Cadence公司IP事業(yè)部Tensilica技術(shù)營銷總監(jiān)Yipeng Liu來到中國,與Cadence公司亞太區(qū)IP業(yè)務(wù)總監(jiān)陳會馨一同介紹了兩款新品。
一、首款深度神經(jīng)網(wǎng)絡(luò)加速器AI處理器IP
Tensilica DNA 100處理器是Cadence首款深度神經(jīng)網(wǎng)絡(luò)加速器(DNA)AI處理器IP,具有靈活可擴展的特點,能夠滿足小到0.5大至數(shù)百TeraMAC(TMAC)的各種需求的擴展,為終端側(cè)(on-device)AI提供高性能與高能效。
以汽車動力等應(yīng)用為例,汽車擁有大量傳感器,包括雷達、攝像頭、激光雷達和超聲波等,對推理性能需求越來越高。標(biāo)準(zhǔn)DSP主要用于做信號處理,而數(shù)據(jù)相關(guān)任務(wù)將被移交給神經(jīng)網(wǎng)絡(luò)加速器,比如DNA 100就負(fù)責(zé)處理感知和決策制定任務(wù)。
Cadence表示,較其他采用相似陣列尺寸大小的乘法累加運算(MAC)解決方案,DNA 100處理器性能提升達4.7倍,在功率方面每瓦特性能提升高達2.3倍。
神經(jīng)網(wǎng)絡(luò)(NN)的特征在于權(quán)重和激活的固有稀疏度,加載和乘以零會造成其他處理器中不必要的MAC消耗。
DNA 100處理器的專用硬件計算引擎移除了上述兩項任務(wù),只計算非零激活和權(quán)重,利用稀疏度提高能效并降低計算量。
神經(jīng)網(wǎng)絡(luò)再訓(xùn)練有助于增加網(wǎng)絡(luò)中的稀疏度,并通過DNA 100處理器的稀疏計算引擎實現(xiàn)更高的性能。
DNA 100處理器能夠利用更小的陣列實現(xiàn)最大吞吐量。例如,在4K MAC配置環(huán)境下,ResNet 50推理性能預(yù)計能實現(xiàn)高達每秒2550幀(fps)和3.4TMAC/W(在16nm工藝),而競爭對手只能達到每秒538幀。
DNA 100處理器非常適用于自動駕駛汽車、ADAS、安防監(jiān)控、機器人、無人機、AR/VR、智能手機、智能家居和物聯(lián)網(wǎng)領(lǐng)域的設(shè)備端NN推理應(yīng)用。
此外,DNA 100處理器還配備了完整的AI軟件平臺,兼容最新版本的Tensilica神經(jīng)網(wǎng)絡(luò)編譯器,支持Caffe、TensorFlow等多種AI框架,Cadence最近還宣布它將支持Facebook的跨硬件平臺機器學(xué)習(xí)編譯器Glow。
Tensilica神經(jīng)網(wǎng)絡(luò)編譯器利用一套全面優(yōu)化的NN庫函數(shù),將任何NN映射為可執(zhí)行和高度優(yōu)化的高性能代碼。因此,DNA 100處理器具有支持分類、對象檢測、分割、重復(fù)和回歸等多種不同網(wǎng)絡(luò)類型的軟件生態(tài)系統(tǒng)。
DNA 100處理器還支持Android神經(jīng)網(wǎng)絡(luò)(ANN)API,用于Android設(shè)備中的設(shè)備AI推理。
DNA 100處理器在所有NN層運行,包括卷積、完全連接、LSTM、LRN和池化。單個DNA 100處理器可以輕松地從0.5擴展到12個有效TMAC,并可以通過堆疊多個DNA 100處理器以實現(xiàn)數(shù)百TMAC,可用于最計算密集型設(shè)備端的NN應(yīng)用。
為了以防DNA 100處理器內(nèi)部硬件引擎當(dāng)前不支持的新NN層,DNA 100處理器還集成了Tensilica DSP,同時使用Tensilica指令擴展(TIE)指令提供Tensilica Xtensa核心的可擴展性和可編程性。
由于DNA 100處理器擁有獨立的直接存儲器訪問(DMA),因此無需新增控制器即可運行其他控制代碼。
DNA 100處理器將于2018年12月面向部分客戶提供,預(yù)計2019年第一季度將全面上市。
二、首款為高性能遠(yuǎn)場處理和AI語音處理而優(yōu)化的IP核
Tensilica HiFi 5音頻/語音數(shù)字信號處理器(DSP)IP是 Cadence Tensilica HiFi DSP系列的新品,也是Cadence首款為高性能遠(yuǎn)場處理和AI語音識別處理量身優(yōu)化的IP核,該產(chǎn)品主攻市場有智能家居、汽車車載、藍牙耳機等。
與HiFi 4 DSP相比,這款HiFi 5 DSP為音頻處理提供了2倍的計算能力,為NN處理提升了4倍的計算能力。
Tensilica HiFi DSP系列是全球最廣泛使用的音頻/聲音/語音處理器,截至目前在全球有超過125家生態(tài)合作伙伴,Tensilica HiFi DSP每年出貨量超過10億。
HiFi 5 DSP的關(guān)鍵特性包括:
1、采用5個超長指令字(VLIW) 插槽架構(gòu),支持每循環(huán)發(fā)布2個128-bit負(fù)載。
2、對比HiFi 4 DSP,預(yù)處理和后處理的MAC性能提高2倍,包括支持每周期8個32×32-bit MACs或16個16×16-bit MACs,可選每周期8個單精度浮點MACs。
3、對比HiFi 4 DSP,NN處理MAC性能提高4倍,包括每周期32個16×8或16×4 MACs、可選每周期16個半精度浮點MACs。
4、全新HiFi NN庫為NN處理(尤其是語音任務(wù))提供了一組專門優(yōu)化的庫函數(shù)。這些庫函數(shù)可以輕松集成到主流機器學(xué)習(xí)框架中集成。
5、完全兼容HiFi產(chǎn)品線擁有的超過300個HiFi優(yōu)化的音頻語音編解碼器以及語音增強軟件包。
此外,Cadence還會提供Tensilica HiFi DSP NN庫等一系列軟件。
隨著語音助手的普及,語音控制用戶界面對智能產(chǎn)品制造商們愈發(fā)重要,他們需要更先進的DSP算法以消除噪音并隔離揚聲器的聲音干擾。此外,因為對延遲、隱私問題的擔(dān)憂,基于神經(jīng)網(wǎng)絡(luò)的語音識別算法更多是在本地而非云端來執(zhí)行任務(wù)。
為了應(yīng)對在能耗敏感型設(shè)備上搭載NN遠(yuǎn)場處理和語音識別算法帶來的計算挑戰(zhàn),Ambiq Micro成為Cadence HiFi 5 DSP的第一家被授權(quán)方。
結(jié)語:邊緣計算升溫帶動行業(yè)智能
在AI的浪潮之下,邊緣設(shè)備的AI處理器應(yīng)用快速增長,但更低的延遲、更好的隱私、更快的處理速度、更自然的語音UI交互等各種越來越高的需求正在增加設(shè)備上的處理工作負(fù)荷。
針對智能產(chǎn)品滋生的痛點,Cadence正在以其獨特的優(yōu)勢深入AI市場,為圍繞著視覺和語音處理的邊緣AI推理和應(yīng)用提供更多底層的助力,在AI行業(yè)中扮演越來越重要的角色。
關(guān)鍵詞: