人機(jī)協(xié)作新一代技術(shù)在路上
未來(lái)世界,將是人機(jī)協(xié)作的世界。所有創(chuàng)新都需要從人的角度出發(fā),而人機(jī)交互與協(xié)作技術(shù)也必須迎合和滿足用戶的需求,讓人更方便快捷地完成任務(wù)。如今,我們正處于從人機(jī)交互向人機(jī)協(xié)作邁進(jìn)的階段——人機(jī)交互是人與計(jì)算機(jī)通過(guò)輸入與輸出設(shè)備進(jìn)行溝通對(duì)話;人機(jī)協(xié)作則是建立在人機(jī)交互基礎(chǔ)之上,讓人和計(jì)算機(jī)通過(guò)優(yōu)勢(shì)互補(bǔ),去共同完成任務(wù)。
不知道是巧合還是有意設(shè)計(jì),人機(jī)交互方式的演變與升級(jí),完美復(fù)現(xiàn)了人類從嬰幼兒到少年,再到成人的交互方式。這一發(fā)展過(guò)程可以大致分為四個(gè)階段。
第一階段是手眼協(xié)同交互。在人類嬰幼兒階段,還未學(xué)會(huì)開(kāi)口說(shuō)話之時(shí),總習(xí)慣用眼睛來(lái)觀察,然后用手指指戳戳,來(lái)表達(dá)自己的意圖,或者與其他人進(jìn)行溝通。類似地,計(jì)算機(jī)交互的首次大規(guī)模應(yīng)用,也得益于圖形界面與鼠標(biāo)、鍵盤的問(wèn)世,人們可以通過(guò)手指操控這樣一套輸入輸出設(shè)備,與計(jì)算機(jī)進(jìn)行溝通。這一階段,人機(jī)交互基本是無(wú)聲的。
第二階段是基于語(yǔ)言和對(duì)話的交互。人類學(xué)會(huì)說(shuō)話之后,會(huì)不斷地學(xué)習(xí),然后慢慢掌握一門甚至多門語(yǔ)言,不斷提高自己的聽(tīng)說(shuō)讀寫能力,而與更多的人進(jìn)行更流暢的溝通。同理,語(yǔ)音識(shí)別技術(shù)以及自然語(yǔ)言處理技術(shù)的快速發(fā)展,使得計(jì)算機(jī)也可以聽(tīng)懂,并在一定程度上理解人類的語(yǔ)言,從而幫助人類完成某些操作。例如,手機(jī)語(yǔ)音助理軟件、智能汽車的車載語(yǔ)音助理、家用智能音箱等產(chǎn)品的廣泛使用,已經(jīng)證明了這一技術(shù)的成功。
第三階段是引入、融合眼神等生物信號(hào)的交互技術(shù)。成年人之間的默契往往不需要語(yǔ)言,“察言觀色”便可領(lǐng)會(huì)彼此的意圖。此類人機(jī)交互技術(shù)的標(biāo)志性產(chǎn)品已于2024年上市——一種增強(qiáng)現(xiàn)實(shí)AR頭盔,結(jié)合虛擬現(xiàn)實(shí)VR技術(shù),通過(guò)組合多個(gè)攝像頭和傳感器,進(jìn)行眼球追蹤,然后提取眼球的特征信息來(lái)監(jiān)測(cè)眼動(dòng)的變化,從而控制頭盔內(nèi)虛擬屏幕上的光標(biāo)定位,最后結(jié)合手勢(shì)、語(yǔ)音等,完成在屏幕上的相關(guān)操作。假設(shè)人類目光所及的位置通常與思考的事物有關(guān),那么,該技術(shù)就有可能通過(guò)眼動(dòng),讓機(jī)器推斷出人正在關(guān)注和思考的部分內(nèi)容。
第四階段則是一種基于意念感知的交互方式——“心領(lǐng)神會(huì)”,即通過(guò)非言語(yǔ)的方式傳達(dá)信息和理解對(duì)方的意圖。這也將成為未來(lái)人機(jī)交互技術(shù)發(fā)展的必經(jīng)階段。一種可能的實(shí)現(xiàn)方式是腦機(jī)接互技術(shù),目前該技術(shù)還處于科學(xué)研究階段。國(guó)外某公司于2024年向公眾展示了首個(gè)產(chǎn)品“心靈感應(yīng)”(Telepathy),即通過(guò)手術(shù)等方式,直接將電極植入到受試者的大腦皮層,以獲得高質(zhì)量的神經(jīng)信號(hào)。展示中,首位接受腦機(jī)接口設(shè)備植入的患者,可以借助該設(shè)備移動(dòng)計(jì)算機(jī)光標(biāo)。同時(shí),國(guó)內(nèi)也有研究團(tuán)隊(duì)成功將無(wú)線微創(chuàng)半侵入式腦機(jī)接口,植入了兩名癱瘓患者的顱內(nèi),成功采集到感覺(jué)運(yùn)動(dòng)腦區(qū)神經(jīng)信號(hào),使兩位患者實(shí)現(xiàn)了自主腦控喝水,并成功用腦電信號(hào)控制電腦光標(biāo)移動(dòng)。但是,腦機(jī)接口的植入物需要替換一塊頭骨,因此,采用該技術(shù)仍然存在一定的倫理和社會(huì)問(wèn)題。
人機(jī)協(xié)作是建立在成熟的人機(jī)交互手段之上的智能技術(shù),以達(dá)到人機(jī)協(xié)同完成任務(wù)的目的,一般可以分為人類單向指揮機(jī)器和人機(jī)雙向合作兩種模式。
單向指揮的人機(jī)協(xié)作模式,往往依賴于人通過(guò)傳統(tǒng)的交互方式指揮機(jī)器完成一些重復(fù)性操作。例如,人類通過(guò)簡(jiǎn)單的指令或者多輪對(duì)話,基于鼠標(biāo)鍵盤等傳統(tǒng)交互手段,使用大模型讓機(jī)器完成一些簡(jiǎn)單的創(chuàng)作(生成文本、圖片、視頻)。但是,普通用戶并不精通如何對(duì)機(jī)器發(fā)號(hào)施令,會(huì)浪費(fèi)大量時(shí)間去配合機(jī)器。如對(duì)大模型輸入提示詞進(jìn)行設(shè)置,然后瀏覽機(jī)器返回的內(nèi)容,這些內(nèi)容很可能無(wú)法達(dá)到人類的要求。此外,通過(guò)聲音、眼神、表情等信號(hào),基于更先進(jìn)的人機(jī)交互技術(shù),人類可以遠(yuǎn)程控制手機(jī)或者智能家居設(shè)備完成操作。
人機(jī)雙向合作往往采用語(yǔ)音等多模態(tài)信號(hào),但普遍存在指令不清晰、機(jī)器無(wú)法完成預(yù)計(jì)指令效果等問(wèn)題。如智能音箱有時(shí)聽(tīng)不懂或者發(fā)生識(shí)別錯(cuò)誤,導(dǎo)致人類需要不斷重復(fù)指令卻沒(méi)有提升效果。在這種模式下,機(jī)器收到人類的指令信號(hào)后,試圖完成相關(guān)任務(wù),并將結(jié)果展現(xiàn)給人類;如果人類不滿意,就需要多次重復(fù)前述的交互過(guò)程,直到任務(wù)圓滿完成,或者因不滿意而放棄,不再繼續(xù)。
筆者認(rèn)為,雖然還面臨諸多難題,但雙向合作的人機(jī)協(xié)作模式將會(huì)是未來(lái)的發(fā)展方向,而如何實(shí)現(xiàn)人機(jī)協(xié)作優(yōu)勢(shì)互補(bǔ),而不是單向指揮,是新一代人機(jī)協(xié)作技術(shù)需要解決的難題。
雙向合作的人機(jī)協(xié)作模式主要依賴于兩種能力,一種是機(jī)器能否真正理解人類指令的能力,另一種是機(jī)器適當(dāng)?shù)嘏c人類配合,幫助我們完成任務(wù)。后一種模式需要借助更高級(jí)的人機(jī)交互技術(shù)。
人機(jī)協(xié)作共同創(chuàng)作的場(chǎng)景,可以幫助我們理解這種模式。人類有天馬行空的巧思,機(jī)器則善于快速完成重復(fù)性工作。當(dāng)人和機(jī)器共創(chuàng)一篇文章、一幅畫作時(shí),人類可以在關(guān)鍵段落、關(guān)鍵局部進(jìn)行創(chuàng)造性構(gòu)思,而機(jī)器可以瞬間領(lǐng)會(huì)人類的意圖,幫其完成其他部分。進(jìn)一步地,當(dāng)人和機(jī)器共同執(zhí)行多個(gè)復(fù)雜的、包含一定隨機(jī)性的決策任務(wù)時(shí),人類可以在關(guān)鍵時(shí)間節(jié)點(diǎn)對(duì)關(guān)鍵信息進(jìn)行判斷,而機(jī)器可以在領(lǐng)會(huì)人類意圖的基礎(chǔ)上,在短時(shí)間內(nèi)完成其他操作,同時(shí)檢查決策中的一些漏洞和錯(cuò)誤,還可以總結(jié)和梳理決策后的反饋信息,以供后續(xù)決策參考。在這一過(guò)程中,是人類的思路和在關(guān)鍵節(jié)點(diǎn)的操作,帶著機(jī)器協(xié)同推進(jìn)完成任務(wù),而不是像單向指揮模式那樣,將所有任務(wù)一股腦丟給機(jī)器去自主完成。
人機(jī)交互技術(shù)只是人機(jī)協(xié)作的底層溝通手段,還需要定義與設(shè)計(jì)在特定或通用任務(wù)中,人與機(jī)器的動(dòng)作空間(即人和機(jī)器分別可以做哪些動(dòng)作),人與機(jī)器操作對(duì)象空間(即人和機(jī)器所做動(dòng)作的對(duì)象有哪些),以及學(xué)習(xí)算法(即機(jī)器正確理解人的操作的算法)。
打個(gè)比方,人在一個(gè)特定環(huán)境中(如廚房),其動(dòng)作空間、操作對(duì)象空間,都是相對(duì)固定的,所能完成的任務(wù)也是有限的。在這個(gè)環(huán)境中,無(wú)論是特定的任務(wù),還是通用的開(kāi)放式任務(wù),人機(jī)協(xié)作應(yīng)是有章可循的——我們不允許機(jī)器脫離人類可控的范疇,進(jìn)行超出權(quán)限或違規(guī)的操作。因此,機(jī)器人需要學(xué)習(xí)算法,才能夠真正看懂、聽(tīng)懂、理解人類的操作,去實(shí)現(xiàn)真正的雙向合作模式的人機(jī)協(xié)作。
進(jìn)一步,更加復(fù)雜的任務(wù)需要多人、多機(jī)協(xié)作技術(shù),這將涉及任務(wù)的分工、管理與執(zhí)行,考驗(yàn)人類對(duì)人機(jī)交互與協(xié)作系統(tǒng)的設(shè)計(jì)與理解,畢竟大多數(shù)任務(wù)是由人類發(fā)起的。
例如,在復(fù)雜系統(tǒng)監(jiān)測(cè)任務(wù)中,面臨海量的樣本數(shù)據(jù),機(jī)器可以幫助人類快速篩選出可能的預(yù)警樣本,而人類需要對(duì)篩選出的預(yù)警樣本做最后的決策,人類甚至可以將一部分簡(jiǎn)單的決策工作交給機(jī)器去執(zhí)行。但是,如何定義預(yù)警樣本的篩選標(biāo)準(zhǔn),以及如何在多人和多個(gè)機(jī)器之間劃分決策工作的比例,將關(guān)系到整個(gè)任務(wù)執(zhí)行的準(zhǔn)確率和人工成本。試想,如果一個(gè)任務(wù),多人協(xié)作都無(wú)法妥善完成,那么多人、多機(jī)協(xié)作是否可以勝任?所以,新一代人機(jī)協(xié)作技術(shù)除了定義上述動(dòng)作空間、操作對(duì)象空間、學(xué)習(xí)算法之外,還需要有一套標(biāo)準(zhǔn)化的流程,以便自動(dòng)對(duì)復(fù)雜任務(wù)進(jìn)行理解與分工,在保證任務(wù)執(zhí)行準(zhǔn)確率的前提下減少對(duì)人工的依賴。
最后,即使完成了人機(jī)協(xié)作分工,仍面臨其他諸多挑戰(zhàn)。第一,機(jī)器不會(huì)懈怠,但人不一定一直是合格的協(xié)作者。那么,機(jī)器是否還需要反過(guò)來(lái)監(jiān)測(cè)人類的協(xié)作質(zhì)量,并在需要的時(shí)候,做出適當(dāng)?shù)难a(bǔ)充?第二,當(dāng)機(jī)器一旦可以部分或者完全替代人類工作的時(shí)候,人類是否具備足夠的能力控制機(jī)器,以防機(jī)器擁有自主智能之后犯錯(cuò),甚至作惡?第三,人機(jī)協(xié)作還會(huì)涉及數(shù)據(jù)隱私泄露的問(wèn)題,特別是在復(fù)雜任務(wù)中,機(jī)器會(huì)存在被動(dòng)泄露數(shù)據(jù)的風(fēng)險(xiǎn)。已有的研究證明,使用大模型過(guò)程中,會(huì)出現(xiàn)因?yàn)閿?shù)據(jù)“投喂”不當(dāng),造成敏感數(shù)據(jù)泄露等問(wèn)題。
這些問(wèn)題還沒(méi)有答案,但我們不能裹足不前,而是要在發(fā)展中解決問(wèn)題。我們堅(jiān)信,未來(lái)的人機(jī)交互會(huì)更流暢更便捷!
人民日?qǐng)?bào)社概況關(guān)于人民網(wǎng)報(bào)社招聘招聘英才廣告服務(wù)合作加盟供稿服務(wù)數(shù)據(jù)服務(wù)網(wǎng)站聲明網(wǎng)站律師信息保護(hù)聯(lián)系我們
人 民 網(wǎng) 股 份 有 限 公 司 版 權(quán) 所 有 ,未 經(jīng) 書 面 授 權(quán) 禁 止 使 用
本文由:捕魚大作戰(zhàn)機(jī)械公司提供