“讓機器行為看起來就像是人所表現出來的智能行為一樣,包含言語、圖畫、行為等的自主了解、判斷、履行”。是目前智能語音芯片還處于開展早期的一個定義。在應對市場,只有極少數語音芯片廠家推出了量產型芯片產品,大部分公司的芯片產品仍處于規劃或樣品樣品摸索階段來應對需求。
智能語音芯片的玩家主要分為三類:
一直從事語音或主控芯片研發及生產的公司
代表性公司是科勝訊、MicroSemi、聯發科、九芯電子、全志、瑞芯微等
科勝訊:發布AudioSmart語音處理計劃,包含CX20924 四麥克風和CX20921 雙麥克風語音輸入處理芯片,首要的功用包含語音增強(4麥回聲消除、噪聲按捺、去混響)、360度聲源定位和語音喚醒。
MicroSemi:發布ZL38051芯片計劃,首要功用包含語音增強(回聲消除、波束成形、噪聲按捺、聲源定位),支撐全雙工通話,支撐音頻播映,支撐編解碼。
聯發科:現在主推的是MT8516語音專用芯片, 支撐高達 8 通道的 TDM 麥克風陣列接口和 2 通道的 PDM 數字麥克風接口,非常合適遠場麥克風語音控制和智能音響設備。現在阿里天貓精靈、百度 DuerOS、索尼的谷歌語音幫手智能音箱均采用了聯發科的計劃。
九芯電子:推出與華邦深度合作的N588D語音芯片產品,是一款集單片機和語音電路于一體的可編輯語音芯片。工業級性能,有串口按鍵并口等多種觸發方式,有上位機軟件,用戶可以編輯語音并下載,完全傻瓜式操作語音芯片。
全志:R16采用了極具性價比的四核ARM Cortex-A7架構處理器,具有強壯的運算功能和豐厚的接口;支撐根據Linux的開源體系Tina(全志自己開發的體系), 現在被叮咚音箱、小愛mini等產品采用;同步推出的R311,內置了完好的降噪算法,并支撐帶屏音箱的計劃,降低了產品公司的開發難度。
瑞芯微:RK3229根據Cortex-A7四核,支撐4-8Mic。在語音算法上,支撐聲源定位、聲源增強、回聲消除、噪音按捺技術。RK3229仍是首先支撐8路數字I2S數字硅麥直連的芯片計劃,不只大大節約本錢,并且兼容不同麥克風陣列算法及渠道。
人工智能草創企業
代表性公司是微納感知、啟英泰倫、Rokid、聲智科技等
微納感知:供給從軟核算法、芯片模組、到聲學規劃的一站式聲學處理計劃公司。現在現已與君正聯合推出X1800智能音箱計劃,與杭州中天微聯合發布CK805輕量級AIoT處理器。同是自主智能語音芯片計劃規劃現已完結,第四季度完結投片,該芯片集成了AD、DSP和神經網絡加速模塊,可以完結2~8麥陣列的遠場拾音、喚醒和打斷、降噪和回聲消除等功用。
啟英泰倫:是一家專注于人工智能芯片規劃及配套智能算法引擎開發的公司,它于2016年9月推出了專用的深度神經網絡智能語音識別芯片CI1006,并已完結了量產和出貨。
智能語音芯片的未來趨勢
邊際計算
現在除了語音喚醒及前端的音頻處理可以在本地完結之外,雜亂場景的語音辨認、語音交互和實時翻譯等都必須連接云端的服務器來完結。未來當芯片算力滿意,完全可以完結悉數語音處理流程都在片上運行,而無須依靠云端和網絡,在保證用戶數據隱私的一起拓寬更多的移動端使用。
可以兼容多種神經網絡框架
現在的智能語音芯片一部分是依靠傳統的數字信號處理算法,一部分是利用RNN/CNN等神經網絡算法進行數據處理,未來或許出現更多類型的神經網絡算法,滿意各種語音交互的場景,而這些算法都可以被同一顆智能芯片所兼容,在不同的狀況調用不同的網絡來滿意客戶需求。
低功耗,小體積
現在的各類語音芯片因為功耗和體積的問題,無法大規模使用于可穿戴、玩具、無人機等不通過電源供電、硬件空間及其有限的設備,如果可以處理這些問題,那么語音交互將可以深入到更多的行業,落地更多的產品。