“小愛,小愛,明天北京天氣如何?”當(dāng)前,AI對話系統(tǒng)已經(jīng)深刻融入人們?nèi)粘I畹姆椒矫婷妫夹g(shù)架構(gòu)和路線更是百花齊放。
然而,作為前沿技術(shù),AI對話系統(tǒng)標(biāo)準(zhǔn)缺失,造成其評價體系不一、在應(yīng)用中呈現(xiàn)出水平參差不齊等問題。針對這種狀況,清華大學(xué)智能技術(shù)與系統(tǒng)實驗室副主任黃民烈教授聯(lián)合學(xué)界和業(yè)界科研機(jī)構(gòu)共同制定了全球首個《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》),并于近日正式發(fā)布。《分級定義》旨在更好地評估AI對話系統(tǒng)的能力水平,推動AI對話系統(tǒng)在虛擬個人助理、智能家居、智能汽車(車載語音)、情感陪護(hù)和心理健康等領(lǐng)域的應(yīng)用有據(jù)可依。
起源于圖靈測試的AI對話系統(tǒng),是人工智能領(lǐng)域最重要的研究方向之一。“如果說自然語言處理是人工智能‘皇冠上的明珠’,那么AI對話系統(tǒng)則是自然語言處理中最難、最核心的任務(wù)之一,是‘明珠中最亮的那顆’。”黃民烈說。
黃民烈表示,近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,AI對話系統(tǒng)已經(jīng)從基于規(guī)則的第一代和以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的第二代,發(fā)展到以大數(shù)據(jù)和大模型為顯著特征的第三代,對話能力產(chǎn)生了革命性變化,在開放話題上展現(xiàn)了驚人的對話能力,對進(jìn)一步推動人工智能產(chǎn)業(yè)發(fā)展具有巨大意義和價值。
“考慮到AI對話系統(tǒng)任務(wù)繁多、評價維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng),人機(jī)混合的對話系統(tǒng)不在考慮范圍內(nèi)。”黃民烈說。
黃民烈介紹,同時,為了在實際應(yīng)用中發(fā)揮價值,《分級定義》的制定是從用戶可感知、可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識對話等,均以“場景”進(jìn)行表述。
在上述原則之下,《分級定義》從自動對話能力、對話質(zhì)量高低、單一/多個場景、跨場景的上下文依賴和自然切換能力、擬人化程度、主動和持續(xù)學(xué)習(xí)能力、多模態(tài)感知與表達(dá)能力等角度出發(fā),將AI對話系統(tǒng)劃分為L0—L5共6個等級,等級越高,AI對話系統(tǒng)水平越高。
“從上述標(biāo)準(zhǔn)看,當(dāng)前AI對話系統(tǒng)水平最高已發(fā)展至L2到L3之間,如常見的‘小愛同學(xué)’等AI智能助理就處于這個水平。”黃民烈說。
與國外相比,我國AI對話系統(tǒng)水平如何?對此,小米技術(shù)委員會主席、AI實驗室主任王斌表示,從目前的工業(yè)應(yīng)用看,我國的AI對話系統(tǒng)與國外的AI對話系統(tǒng)沒有明顯差異,總體處在同一級別。
“現(xiàn)在AI對話系統(tǒng)整體處在向L3、L4發(fā)展的路上,距離理想還有一定的距離,還需要一到兩年甚至更長時間的持續(xù)努力。”黃民烈說,要向L4、L5邁進(jìn),需要破解記憶、聯(lián)想、推理、自學(xué)習(xí)能力等方面的很多關(guān)鍵技術(shù),要做出高表現(xiàn)力的語音合成,如果運用到元宇宙中,還需要做出動作和表情細(xì)粒度的表達(dá),都極具挑戰(zhàn)性。
在華為諾亞方舟實驗室語音語義首席科學(xué)家劉群看來,AI對話系統(tǒng)最高級別的應(yīng)用為復(fù)雜情感任務(wù),《分級定義》的發(fā)布將促進(jìn)AI對話系統(tǒng)在情感任務(wù)中體現(xiàn)更高水平的智能,從而促進(jìn)人工智能未來在情感陪伴、心理健康、虛擬人、元宇宙等方面的應(yīng)用,大大降低人力和物力成本,促進(jìn)前沿科技走進(jìn)大眾日常生活。