由騰訊優圖主辦,騰訊云、騰訊 Ai Lab 和極客邦協辦,主題為「智變未來-淺談人工智能技術應用與實踐」的技術沙龍活動 3 月 23 日在北京舉辦,沙龍上來自騰訊、intel 的五位嘉賓就技術、產品、實踐和應用等 Ai 話題展開分享。
活動一開始,騰訊優圖產品負責人周可菁先為我們帶來《計算機視覺技術在智慧零售中的實踐與應用》的分享。
近年來,隨著網上銷售增速放緩,網購競爭正式步入存量階段。2016 年智慧零售的提出,進一步說明人們消費結構在轉型,變得更注重線下真實體驗。同一時間,技術的快速進步有效降低了落實智慧零售的所需成本。
智慧零售,即是以人為核心的線上—線下聯動,在場景數據化+數據網絡化的基礎上,實現全景數據化的洞察,從而提升商業運營效率。在此之中,計算機視覺主要扮演人-貨-場三者聯系的關鍵紐帶,從到店-逛店-購買,完成知人知面知心的AI 賦能。
周可菁簡單介紹了計算機視覺在線下運營不同階段的功能,以及所涉及技術:
過店-進店
目的:運營、防盜
涉及技術:人臉檢測、人臉屬性分析、大規模人臉檢索
逛店
目的:細粒度客流統計、精準定位客群屬性、軌跡熱區
涉及技術:人頭體追蹤技術方案、人體ReID 技術方案
收銀
涉及技術:人臉識別+活體檢測
第二位分享的是騰訊優圖的AI 應用研究高級研究員王川南,其題目為《從硬件到算法——騰訊優圖AI 終端產品實踐》。
隨著計算機視覺技術的逐步成熟,催生越來越多的計算機視覺 + 硬件需求,并且廣泛被應用至各行各業中去。由此詳細介紹了活體檢測技術的演進之路:最初期的數字語音(唇動+語音)到后來的動作交互防翻拍,17 年優圖推出首創的光線活體技術,通過屏幕發出隨機光信號同時采集圖像,可以驗證是否為人臉的三維形狀和質感。乃至最新的 3D 活體檢測技術的廣泛應用。
即便是效果最佳的 3D 檢測方案,在具體落地時依舊遇到不少的困難,尤其是要能適應各種復雜光照環境,保證人臉區域的清晰,在 isp、分辨率、幀率、深度精度以及工作距離上都有相應的要求,需要我們一起努力攻克解決。
此外,為了在讓軟件能夠更好地與硬件進行適配,這就要求我們必須對算法終端的性能進行優化。為此,騰訊優圖研發了移動端高性能前向計算框架 NCNN 以及深度學習推斷框架 RapidNet,兩者皆由騰訊優圖自主開發,其中前者已對外開源。
NCNN 是一個為手機端極致優化的高性能神經網絡前向計算框架,其主要優勢體現在:
支持卷積神經網絡,支持多輸出和多分支結構,可計算部分分支
ARM NEON 匯編級良心優化,計算速度極快
精細的內存管理和數據結構設計,內存占用極低
支持多核并行計算加速,ARM BIG.LITTLE cpu 調度優化
可擴展的模型設計,支持 8bit 量化和半精度浮點存儲,可導入 caffe 模型
而 RapidNet 則是一款深度學習推斷框架,同時擁有跨平臺、高性能、模型壓縮、代碼裁剪等眾多突出優勢。其在各個平臺提供了統一的接口調用,以及同步的優化策略。面對異構網絡,RapidNet 可以有效發揮硬件加速技術,并保證多核 CPU/GPU 的任務調度。至于面對量化難點,RapidNet 可以確保手勢檢測、跟蹤等模型效果在大部分機型上提升 20%—40%,同時精度降低平均在 0.5 % 以內。
隨后,來自騰訊 AI Lab 的高級研究員金明杰為我們帶來《基于 AI Lab 語音技術的應用與實踐》的分享。
語音是人的聲音,機器要想理解人的聲音,通常使用的是音頻信號。而音頻信號是一個有規律的聲波的頻率、幅度變化信息載體,其關注的核心要素是采樣率、量化位數以及編碼算法。常見的語音技術展現形式可以分為兩種:一種是語音到目標的信息,一種是給定信息到語音。涉及技術主要包括語音喚醒、聲紋識別、語音識別、語音活動檢測以及語音合成等。
以音箱產品為例,音箱通過前端接收人們說話的信號,再經過語音喚醒,各種前端技術處理過猴,音箱把信號傳到云端,讓云端做聲紋識別和語音識別。在識別成文字后,進而轉至語義理解,通過文本處理的方式進行意圖識別,然后調用功能模塊,讓用戶可以聽歌曲、獲得天氣預報、聽有聲書等等,最后才是回復術語。
語音喚醒主要看 3 個指標:FA(誤喚醒)、FR(未喚醒)以及 EER(FA 等于 FR 的狀態)。具體操作流程上,首先是要確定建模單元,然后通過一個已經訓練好的神經網絡訓練模型進行訓練。為了保證喚醒效果,過程中我們需要保證模型在說話內容符合時序延續、說話語序等條件的情況下才能被喚醒,至于如何進行設置,就屬于產品經驗層面的東西。語音喚醒的常見結構主要可以分為兩種:單喚醒模型和雙喚醒模型——前者結構簡單,然而模型復雜功耗高,一些小芯片可能會抗不住;后者結構復雜,功耗較低,而且可以把部分喚醒模型放在云端,可避免誤喚醒情況的出現。
至于在前段技術方面,主要會通過麥克風陣列來達到以下效果:
語音增強/去混響
聲源定位
回聲消除
語音識別技術是把人類的語音中的詞匯內容轉換成計算機可讀的輸入,即是將音頻信號發送到云端,云端作為解碼器將會識別出結果。
解碼器負責把音頻信號轉化成建模單元的部分是聲學模型,目前比較常見的有:
DNN 網絡——下面輸入層,中間 N 個隱層,上面輸出層。它的計算量相對較小,非常容易部署,基本上所有的設備都可以搞定。
CLDNN 網絡——C 就是卷積網絡,L 是 LSTM 網絡,D 就是 DNN。這個網絡的優點是快速收斂,快速達到比較好的識別效果。
最后,金明杰也為我們展望了一下語音產品的發展,目前有待完善的部分包括:
方言、方普
多語種混合
變聲
多人說話
活動最后,來自騰訊云大數據及人工智能產品中心高級產品經理周吉成帶來《騰訊云人臉核身技術原理與最佳實踐》的分享。
所謂的人臉核身技術,換句話說即是實名、實人:實名,就是你的名字是合法有效的。實人,是要證明你是你。
早期我們都有這種體驗,比如說去銀行、運營商開卡都需要本人到現場,領養老退休金的,年紀已經很大了,還要去社保局親自做實人證明,這些成本都非常高。此外,網絡辦事在當下已經很普遍,然而要想進行網上身份驗證依然非常困難,更別說還有身份冒用的問題,以及線下場景遇到檢查卻沒帶身份證的情況。因此,無論央行、運營商還是保險行業都提倡利用 OCR 技術運用至業務流程中以提升效率,這是國內人臉技術的應用背景。
活體檢測方面,最典型的流程是通過遠程進行核身——第一步是身份證 OCR 識別,然后系統提示讀數字,以證明是在場的人,最后再錄制視頻給出最終結果,在這過程中系統會進行照片比對。這個流程會嵌入到很多業務環節里,比如說身份證更新或者身份證號更改。
總的來說,活體核驗技術是一個不斷演化的過程,活體算法在落地實際場景時,實際上是一個用戶體驗與安全性上兩者相互妥協的過程。比如早期做動作交互,用戶就對此表示厭惡,認為這種驗證模式特別傻;后來微眾銀行做讀數字,雖然安全性有所提升,用戶依然不買賬;這才有了后來的「激光守衛」——通過屏幕反光做活體檢測以及更高安全級別的紅外、3D 結構光照。
核身從某種程度上也要做多種模式的融合,才能有更高的安全性,即便如此,依然免不了遭遇很多「攻擊」。遇到這種情況,純粹依賴底層算法是不現實的。其他可考慮的方案就包括接入渠道層面做安全控制、后端風控、人工審核或者多種活體模式的組合。