我們看到了智能技術在影像辨識、偵測上的突破,甚至落地為產品。很多人問,這些深度學習為核心的計算機視覺技術也可以具有人類的美感—具有評判、編修、甚至美學創作的能力嗎?
智能視覺美感技術大致可以區分為三類:首先為影像(或視訊)編修強化,包括修圖(對比、亮度、景深等)、超高分辨率成像、突破壓縮技術、改善電視顯像質量、加速電影(內容)特效制作、甚至主動改善車輛安全駕駛在低亮度下的視訊質量;其次為照片美學評分、取景,自動挑選具美感的照片或是畫面;第三為自動生成不存在的影像。而這些核心技術所啟發的應用都已經是進行式,或是即將落地為產品。
相關技術大大改變數位內容產業。梵谷油畫電影《梵谷:星夜之謎(Loving Vincent)》耗時6年,動員超過百位來自世界各地的畫家才完成這個耗時、耗資的工作。目前已經有軟件服務完成類似的功能,可以讓一般人自動將影片轉換為特定畫家的風格,透過畫家的經典創作,讓卷積網絡(CNN)的數千萬個參數,學習到影像轉換的方式,均衡風格跟影片內容。我們在兩年前參與的IBM華生研究中心預告片自動剪輯研究,也同樣帶來類似產業的突破。
一般的卷積網絡架構為設計適合的編碼器以及相對的譯碼器;前者將畫面內容解析之后,透過后者生成適切的影像(強化或是編修),大量的卷積網絡參數透過事前的訓練數據來達成目的。而時常被忽略的是適合的目標函數,通常得同時使用多個,并將領域知識吸納其中,這是成功與否的重要關鍵!
在美學評分方面,一般利用卷積網絡加上回歸函式來逼近美感分數。最大的挑戰在于訓練的數據。因為嚴謹的美感牽涉到文化、社會、以及個人的差異,可以取得的訓練數據─不管是透過人工標注或是社群網絡下載—不全具代表性,很難學習到通用的美感。不過在特定家用照片上,透過自動評分,甚至修正照片(旋轉、取景、飽和度等)等都已經落地在國內外的各種應用當中。如果能進一步熟悉應用場域,個人化適性學習,將有更大發揮的空間。
最具挑戰的是從無到有生成具美感的影像,一般都嘗試利用生成對抗網絡(GAN)來實現,但是目前在速度、分辨率、生成質量控制上都還有相當努力的空間。
值得產業注意的是,我們觀察到這些視覺美感智能突破也逐漸由云端走入本地端。相機、攝影機、電視等相關芯片都已經看到國內外的公司正逐漸布局。因為提供具美感的生活體驗,不正也是智能時代的新產品嗎?