用戶名:

密碼:

驗證碼:

當前位置:新媒動態 > 財經股票 > 保險 >

專訪俞棟:多模態是邁向通用人工智能的重要方向

2019-10-12 16:07 記者觀察網 點擊次數 :

隨著語音識別、自然語言處理、計算機視覺等人工智能技術日益成熟,并逐漸落地到實際場景中,如何實現大規模應用落地或者說如何通往通用人工智能,越來越成為這些領域的研究者探索和思考的命題。

在這種探索和思考下,“多模態”成為人工智能領域諸領軍式專家和學者重點談及的研究方向,例如,自然語言處理領域專家劉群教授在此前與 AI 科技評論的對話中,就曾談及諾亞方舟語音語義實驗室目前的一大重點研究方向便是多模態;德國漢堡科學院院士張建偉認為人機交互的未來是多模態共享模式;計算機視覺領域專家賈佳亞教授則在多場演講中提出「多模態是人工智能的未來」這一觀點。

而騰訊作為業界關注這一研究方向的代表之一,自 2018 年 2 月就開始關注多模態方向的研究,并于 2018 年 11 月宣布探索下一代人機交互方式:多模態智能。

9 月 2 日,在騰訊 AI Lab 攜手 Nature Research(自然科研)及旗下《自然-機器智能》、《自然-生物醫學工程》兩本期刊聯合舉辦世界首屆「Nature Conference - AI 與機器人大會」上,語音識別領域的領頭人之一、騰訊 AI Lab 副主任、多模態虛擬人項目負責人俞棟博士更是基于其在多模態技術上的研究成果,帶來了《虛擬人中的多模態合成技術》的演講報告,以虛擬人項目為載體,向大家介紹了多模態的技術優勢,并分享了騰訊 AI Lab 在這一方向上的研究和應用探索。

會后,AI 科技評論還對俞棟博士進行了專訪,進一步探討了多模態的應用探索情況,其中,俞棟博士在將多模態這一研究方向視為邁向通用人工智能的突破口的同時,也以更加冷靜的態度指出,多模態會是未來人工智能的一個非常重要的方向,但并不是全部。因為人工智能是一個很廣泛的概念,我們目前對它可能只是略知皮毛,通往通用人工智能的這條路到底是怎么樣的,大家都還處于一個探索狀態。

與此同時,AI 科技評論也借此機會跟俞棟博士聊了聊他領先將深度學習技術應用到語音識別領域的歷史淵源、從微軟研究院到騰訊 AI Lab 的職業轉變經歷以及其對于語音識別領域未來發展的看法。

我們先來看俞棟博士在本次大會上都分享了什么。

專訪俞棟:多模態是邁向通用人工智能的重要方向

為什么多模態是人機交互的發展趨勢?

人機交互走過了鍵盤交互、觸摸交互等若干階段,目前許多設備采用語音交互的方式。而交互模式經歷每一次變化背后的驅動力,都是對人和機器之間交互的便利性、自然性以及準確性所提出的更高的要求。

為了更好地滿足人機交互的這一需求,俞棟博士指出了一個非常重要的研究方向或者說發展趨勢,那就是多模態人機交互。與此同時,俞棟博士也解釋了為什么多模態是人機交互的發展趨勢的原因,主要有四點:

第一,多模態交互能夠讓人類在不同的場景下可以選擇不同的模態組合進行交互,進而從整體上提高人機交互的自然度;

第二,在多模態技術下,一個模態可以補充另一個模態的弱點,從而能夠通過融合多個模態的信息,獲得更精確的用戶、情感、場景、和發聲人位置估計;

第三,多模態交互具有「互為監督」的優勢,即當機器無法獲得某個模態的明顯信息時,其他模態可以為其提供弱監督信息,讓機器能夠持續做系統自適應調整;

第四,多模態能夠讓人們在與機器的交互過程中擁有多維感覺,從而能夠從視覺、聽覺、觸覺等多方面體會機器的情感和表達的語義。

而除了所具備的這些優勢外,俞棟博士認為,多模態交互還能夠給業界帶來更多的想象空間,比如可以嘗試使用人機交互技術去做虛擬解說、虛擬前臺、虛擬陪伴等。

正是由于多模態交互所具備的這些優勢以及所帶來的這種想象空間,他也領導團隊開啟了虛擬人的研究項目。下面,俞棟博士也以虛擬人這項研究成果為載體,對多模態交互技術進行了詳細介紹。

多模態交互技術詳解及應用成果分享

俞棟博士首先介紹了多模態交互的系統框架,主要包括三個部分:多模態輸入、中間的認知和決策控制環節以及最后的輸出。

專訪俞棟:多模態是邁向通用人工智能的重要方向

進一步,俞棟博士向大家展示了多模態技術的階段性成果——虛擬人的合成技術流程:系統首先從文本中提取各種各樣的信息,包括動作、表情、情感、重音位置、和激動程度等;之后將這些信息輸入到動作表情模型生成動作和表情,同時輸入給多模態合成系統 DurIAN 同步生成語音以及口型和表情參數,進而合成真人或者卡通形象。

專訪俞棟:多模態是邁向通用人工智能的重要方向

其中,同步合成語音和圖像的 DurIAN 模型作為多模態合成技術的核心成果,則是俞棟博士本次要介紹的重點內容。

據俞棟博士介紹,相較于傳統語音合成方法以及目前最新的端到端語音合成方法,應用多模態合成技術DurIAN 模型,無論是在自然度、魯棒性、可控性、泛化能力以及實時性等方面都取得了更好的效果。

傳統語音合成方法 VS 端到端語音合成方法

在正式介紹 DurIAN 模型前,俞棟博士先介紹了傳統語音合成方法、端到端語音合成方法、以及這兩種方法各自的優缺點。

傳統語音合成方法主要基于 BLSTM+WORLD 模型,擁有穩定性和可控性較強的優點,同時也存在合成語音機械感太濃的缺點。不過由于該方法具備較強的穩定性和可控性,在工業界的實用系統中主要還是使用這種框架。

端到端的語音合成方法優點則在于自然度很高,缺點則是穩定性和可控性比較差,其中最常見的問題是漏字和重復。以從文獻中摘錄的結果為例,該系統出現漏字或者重復錯誤的可能性為 1%-5%。因而,該方法在實用系統里沒有得到廣泛使用。不過近來,該方法取得了很大進展,例如谷歌于 2018 年提出的結合 WaveNet 的 Tacotron 模型。

相比于傳統語音合成方法,端到端語音合成模型 Tacotron 的優勢主要有四個改進部分:

第一,它使用了基于神經網絡的編碼器模型來替換人工設計的語言學特征;

第二,它直接預測含有豐富信息的頻率譜,而不是源過濾器聲學特征;

第三,它引入了自回歸模型,解決了合成過程中的過度平滑問題;

第四,它采用了基于注意力機制的端到端訓練方法。



(此文不代表本網站觀點,僅代表作者言論,由此文引發的各種爭議,本網站聲明免責,也不承擔連帶責任。)

(責任編輯:主編)
文章人氣:
(請您在發表言論時自覺遵守互聯網相關政策法律法規,文明上網,健康言論。)
用戶名:
驗證碼:
  • 工業4.0企業需要買哪
    工業4.0企業需要買哪些保險?財產保險報價網細述, 工業4.0企業需要買哪些保險?財產保...
    工業4.0企業需要買哪些保險?財產保險報價網細述
  • 17支財富管理精英團隊
    全新設計的《廣州日報》多媒體數字報紙,該版本數字報紙具有超大版面圖、下載速度快和...
    17支財富管理精英團隊亮相 16家銀行和5家保險公司脫穎而出
  • 駕駛證過期影響保險理
    ■案情簡介 2014年,張先生購買了一輛廣州本田轎車,并通過某財險公司辦理了機動車強...
    駕駛證過期影響保險理賠
  • OK保險網保險業10月月
    一、10月人事變動:據OK保險網統計,10月份人事變動人數共76人。其中董事長職位6人,...
    OK保險網保險業10月月報:中再掛牌上市
首頁 | 新聞資訊 | 財經股票 | 科技新聞 | 汽車資訊 | 娛樂八卦 | 體育新聞 | 房產樓市 | 旅游資訊 | 健康養生 | 明星時尚 | 主持人主 |
江苏11选5微信群