隨著AI技術(shù)發(fā)展逐漸成熟,各大媒體平臺(tái)、直播間、短視頻等,越來越多的虛擬主播走進(jìn)了大眾視野,比如《人民日報(bào)》推出的AI虛擬主播“任小融”“果果”,新華社推出AI合成主播“新小微”等,他們聲音甜美、風(fēng)趣幽默,擁有與真人無差別的外表,如果不仔細(xì)觀察,可能會(huì)誤以為是真人在播報(bào)。
這些AI虛擬主播看似是一個(gè)人物形象,但其背后卻是一套復(fù)雜的算法和工程體系。這套算法涵蓋了視覺、語音、自然語言處理等多模態(tài)融合算法,通過把表情捕捉、動(dòng)作捕捉、物理解算、同步傳輸、特技效果等多項(xiàng)專項(xiàng)技術(shù)相結(jié)合,實(shí)時(shí)識別互動(dòng)內(nèi)容,從而快速做出相應(yīng)反應(yīng)。
阿里巴巴達(dá)摩院的資深算法專家陳海青曾指出,一個(gè)AI虛擬主播需要具備以下四個(gè)方面的技術(shù)架構(gòu):感知與認(rèn)知、導(dǎo)演系統(tǒng)、3D建模、3D素材庫。這套支撐AI虛擬主播的算法不僅需要為虛擬主播設(shè)定情緒,還需設(shè)定與之相對應(yīng)的肢體語言和面部神態(tài)等,以求在最大程度上接近真人主播。所以,相比真人,AI虛擬主播具有很好的“先天優(yōu)勢”。