幻響未來全球追光?丨仿生人會夢見電子羊嗎?數(shù)字人會進化成什么樣?專訪商湯科技
仿生人會夢見電子羊嗎?這是“科幻鬼才”Philip K. Dick的科幻名作,也是人類對
10月18日至22日,第81屆2023世界科幻大會將在成都舉辦。大會前夕,紅星新聞、每日經(jīng)濟新聞聯(lián)合啟動“幻響未來,全球追光”大型融媒體采訪報道,追尋科幻轉(zhuǎn)換為現(xiàn)實背后人類不同文明所共同擁有的科技與夢想之光。
商湯科技作為中國軟件公司,也將參加本次世界科幻大會。商湯科技研發(fā)的商湯如影應(yīng)用平臺,以數(shù)字人視頻生成技術(shù)為核心,擁有多種AI生成能力,包括文本生成、語音生成、動作生成、圖片生成、NeRF等。紅星新聞記者日前專訪了商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理欒青,就的現(xiàn)在與未來進行探討。
欒青:這個問題蠻科幻。從我的理解,目前的大模型或模擬人腦的系列人工智能技術(shù),被普遍認為還沒產(chǎn)生自我意識,是數(shù)據(jù)的匯總和演繹,而不是自我意識的某種形態(tài)。
如果上升到哲學(xué)觀點,自我意識是什么?其實是腦結(jié)構(gòu)對信息處理后的演繹。從這個角度,很難解釋說會不會產(chǎn)生自我意識。人工智能的物理結(jié)構(gòu)在模擬大腦,未來富余的電信號也可以去運轉(zhuǎn),不能說這種情況未來不會發(fā)生。但現(xiàn)在來說,人工智能是為人的目的而存在。
欒青:數(shù)字人技術(shù)包含好幾個方面,一方面是人機交互,就是數(shù)字人用人的方式去說話、動作、表情,模擬人和人之間交互的感知和體驗。這里面包含了兩塊主要技術(shù),一是人形視頻的生產(chǎn),二是用AI去生成人聲。
除了人機交互,另一個技術(shù)是模擬大腦,是未來越來越被關(guān)注的。數(shù)字人除了擬人化,大腦非常厲害,計算能力比普通人腦更強??梢宰匀惑w會人的感情,還能處理和計算信息,給出最佳回復(fù),甚至提供情緒價值。
紅星新聞記者:商湯科技將數(shù)字人分成L1至L5五個等級,將L4和L5等級的數(shù)字人統(tǒng)稱為“AI數(shù)字人”。目前商湯的數(shù)字人能完成最復(fù)雜的互動是什么?背后的技術(shù)難點在于?
欒青:目前數(shù)字人最常用的,一個是人機交互的界面模塊,用來生成視頻、直播,以人性化的方式去展示信息和內(nèi)容。
隨著大模型的突破,現(xiàn)在到了“輔助駕駛”階段。因為大模型生成的內(nèi)容還需要人去審閱、調(diào)整,就不是“自動駕駛”,還是“輔助駕駛”。這在L3和L4之間,能生成完整內(nèi)容,但還需要修正。現(xiàn)在常用的短視頻和直播領(lǐng)域,就在L3和L4之間,是最大規(guī)模的應(yīng)用。
另一個客服類場景應(yīng)用更偏L4階段,達到信息級別的交互。比如說現(xiàn)在打開工商銀行APP,切換為數(shù)字人模式,所有業(yè)務(wù)可以直接在APP里去和數(shù)字人客服交互。這個場景的體驗是L4級,但智能性還有一定差距,所以數(shù)字人下一步想達到線發(fā)展,還需要技術(shù)的突破。
包括現(xiàn)在大模型比以前厲害很多,不像以前是傻的,現(xiàn)在很聰明。但是情感類的互動,提供情緒價值還是蹩腳,沒有自然到怎么溝通都分辨不出來。
這種技術(shù)的突破有三點要做,一是數(shù)字人需要跟行業(yè)更深入結(jié)合。在行業(yè)領(lǐng)域里的知識、習(xí)慣、技術(shù)信息,還需要專業(yè)性大模型幫助理解。
數(shù)據(jù)打通之外,第二步是接口打通。比如,操作理解了要做這件事,系統(tǒng)能不能真正去做到?辦一張信用卡,如果沒有連接銀行辦信用卡的接口,就拿不到實體信用卡,這就需要接口打通。
這兩點做到了,還有需要考慮的地方。比如數(shù)字人現(xiàn)在可以做醫(yī)療建議,但不能真正開藥。從邏輯上,從權(quán)責(zé)上,不能做。數(shù)字人目前在某些行業(yè)里,只能給建議,不能實操。
現(xiàn)在行業(yè)達到了千億級參數(shù),等到GPT 4的時候,可能到萬億級參數(shù),數(shù)字人可以更全面地在情緒價值方面更自然地互動。目前還不清楚這個階段需要通過什么方式達成,是修改網(wǎng)絡(luò)結(jié)構(gòu),還是增加算力和網(wǎng)絡(luò)節(jié)點數(shù),這是現(xiàn)在還在不斷研究的核心突破點。
欒青:是模型里的節(jié)點數(shù),可以認為是模擬大腦的神經(jīng)元,人腦應(yīng)該在萬億級。所以按理論來講,目前的GPT 4已經(jīng)達到了人腦的參數(shù)級別。但從智能角度來講,和人腦還有差距。
紅星新聞記者:商湯介紹,AI數(shù)字人主要應(yīng)用于虛擬偶像、虛擬客服和超級助手三個方向,現(xiàn)在依然如此嗎?
欒青:這三大應(yīng)用場景是前幾年數(shù)字人最多的應(yīng)用,其實今天,數(shù)字人最大的應(yīng)用是短視頻和直播內(nèi)容生成。
現(xiàn)在很多短視頻,大家并不知道是數(shù)字人制作的。比如女主播在直播間里,展示漢堡王的招牌套餐;招聘電工的短視頻等等。還有一些專業(yè)人士,律師、醫(yī)生、老師都有使用數(shù)字人來生成一些內(nèi)容。
4、5年前,制作一個數(shù)字人所需數(shù)據(jù)量比較大,一般要十幾個小時的視頻素材,同時需要滿足多角度和動作的要求,制作完成后會發(fā)現(xiàn)效果僵硬。當(dāng)時有許多電視臺在日常新聞報道中,使用數(shù)字人主播,尤其是突發(fā)型事件報道,很有價值。不過因為制作難度和成本的限制,無法在普通大眾營銷場景下推廣,難以形成規(guī)模效應(yīng)。
現(xiàn)在大模型突破后,數(shù)字人的制作變得容易許多,十幾秒的素材就可以制作一個數(shù)字人。這兩年,技術(shù)在不斷提升,去年、前年還要三五分鐘,今年一兩分鐘、甚至幾十秒都可以。
表現(xiàn)包括可不可以自由做動作?能不能跳舞?沒有錄入的動作能不能更豐富?能不能直接AI生成數(shù)字人,不用找人錄,就沒有版權(quán)問題。
最近也常說可不可以讓數(shù)字人在任何設(shè)備上跑起來?現(xiàn)在很多還是在好一點的硬件設(shè)備跑,或者在云端跑,客戶覺得太貴了,可不可以在他自己的手機上跑?
背后的技術(shù)支持包括芯片適配,性能優(yōu)化。技術(shù)推向產(chǎn)品化的過程,就是不斷適用于更多場景,更復(fù)雜的條件。說到底還是考驗AI視頻生成的復(fù)雜度問題,這也是我認為人工智能下一個要過的坎。
欒青:現(xiàn)在經(jīng)常有電影導(dǎo)演跟我說,什么時候數(shù)字人能實現(xiàn)劇本出來就生成影片?
現(xiàn)在一些所謂的數(shù)字人出演,還只是“換臉”,就是人類演完,把臉畫綠幕摳掉。這樣其實并沒有節(jié)省成本,是噱頭。我覺得行業(yè)真正應(yīng)該做的,是讓一些內(nèi)容徹底AI化,縮短制作時間,降低試錯成本。
目前電影級的數(shù)字人還面臨很大的挑戰(zhàn),我們也在和一些明星做初步嘗試,發(fā)現(xiàn)在短視頻、短劇領(lǐng)域有希望,但真正的高質(zhì)量屏幕還沒有突破。目前在為動畫電影做努力,通過人工智能技術(shù),將真人內(nèi)容轉(zhuǎn)化成具體風(fēng)格的動畫,我覺得短時間內(nèi)這是最有希望的。
本文由:捕魚大作戰(zhàn)機械公司提供