智能問答系統研究
來源:用戶上傳
作者:
摘要 問答系統是一個用自然語言與人們進行互動的計算機系統,近些年來機器學習、強化學習,尤其是深度學習等技術的革命性發展給問答系統帶來了長足的進步。本文將從問答系統的定義入手展開文章,再介紹了問答系統的發展歷程,以及給出問答系統的一般處理框架,再從面向任務型和非任務型兩個方面給出問答系統的分類及其相應技術,并給出問答系統的常見的評價標準方法。最后,在文章結尾處給出當前問答系統的一些挑戰以及未來的可能的研究方向。
【關鍵詞】問答系統 處理框架 分類 深度學習
1 引言
隨著互聯網的發展,互聯網上的信息越來越繁雜,已呈現出爆炸式增長的狀態,面對信息洪災,人們越來越難以在網上便捷獲取有效信息,獲取有效信息的成本也越來越高。過去人們通常根據搜索引擎輸入關鍵詞,搜索服務提供商運用檢索算法根據相關性從高到低給出相關信息。但隨著信息越來越繁雜,傳統搜索算法愈來愈顯得力不從心,其原因在于傳統算法未能獲取語言更深層次的語義信息,此外,相似信息太多,甚至包含了很多虛假信息。因此也不斷催生著新技術的誕生,尤其是計算語言學的發展和人工智能的進步。
而隨著深度學習技術的不斷進步,問答系統不僅僅可以獲取語言表面上的信息,還可以獲取更深層次的語義信息,而這種進步恰好也給了問答系統生存的土壤與營養。問答系統所能帶來的變革與收益,諸如在取代人工客服,聊天機器人,智能家居等領域的應用,進一步引起了學術界和工業界的廣泛關注。當前,問答系統已成為自然語言處理領域研究的一大熱點。問答系統的成熟應用會將人類從大量重復性的勞動中釋放出來,并且會改變人類生產力的生產方式,對人類的社會進步是不可估量的。
同時,智能的問答系統也是構建下一代智能世界不可或缺的一個重要角色。在本文中,我們將從不同的角度對問答系統進行概述,并在文章結尾處討論了一些當前問答系統所面臨的挑戰與未來可能的發展方向。
2 問答系統
2.1 問答系統的定義
問答系統是一種以自然語言或語音和用戶進行自由問答交流的計算機程序,它在用戶和基于計算機的應用程序之間提供了一個接口,該接口允許以一種相對自然的方式與應用程序進行交互。目前,問答系統正以文本、圖形、語音等多模態的形式發展。
2.2 問答系統的組成
問答系統通常由四個部分組成:
(1)自然語言理解(NLU),將自然語言信息轉換成語義槽,通俗來說就是將文本語言轉換為計算機可以表示并理解的信息;
(2)問答狀態跟蹤,即問答管理,這一階段系統根據歷史問答和當前用戶的輸入,來產生當前的問答狀態,即輸出當前的狀態所采取的動作;
(3)策略學習,策略學習的目標是生成下一狀態,這也是得益于強化學習的引入,使得系統不僅僅是考慮歷史的問答記錄,還應考慮未來可能的問答狀態;
(4)自然語言生成(NLG),將計算機的語言理解表示映射為人類所熟悉的自然語言。當然,有些問答系統的輸入輸出并非自然語言,也可能是語音,那么在輸入時還需要將語音轉換為自然語言,在輸出時將自然語言轉換為語音。
3 問答系統的發展歷程
根據技術的變革發展,我們可以將問答系統分為三個大的階段:
3.1 基于符號規則的第一代
二十世紀80年代末是符號規則技術的高潮期,也是最早一代問答系統的誕生期,其主要的技術是基于專家設計符號規則,來產生指定的回答系統,它的缺點當然很明顯:
(1)很難擴展;
(2)過于依賴專家,其成本太高;
(3)系統只是基于規則來產生回復,并沒有涉及學習。
3.2 基于數據統計的第二代
二十一世紀以后由于互聯網的快速發展,產生了大量的文本信息,尤其是社區問答信息,這為問答系統進入數據驅動時代鋪墊了良好的基礎,此時問答系統已進入開放領域。基于統計學的問答系統大放異彩,問答系統已經開始出現淺層學習技術,但是這種基于淺層學習的問答系統雖說有一定的學習能力,但由于這種學習能力不強,也不易于理解,在很多方面難以給出解釋,這些因素限制了當時問答系統的進一步發展。
3.3 基于深度學習的第三代
互聯網信息的爆炸式產生和深度學習技術的快速發展,大量的數據和革新的技術給新一代問答系統提供了發展的客觀條件。此時,深層的神經網絡蓬勃發展,用更深層的學習來獲取更深層次的語義表征,使得深層神經網絡具有強大的學習能力。正由于其強大學習能力這也使得問答系統得到了空前的關注。雖說第三代問答系統的學習能力遠超前兩代的問答系統,但仍具有一些局限性,例如仍然有一些現象很難解釋,很難擴展到其他領域,無法做到通用問答系統,并且市場上并沒有完全成功的商用問答系統。
4 問答系統處理框架
不同類型的問答系統在數據處理的方式上有所不同。雖然不同的問答系統面對不同的任務有著各自的架構體系,但根據數據的流動方式,一般可以分為三個部分,包括問題理解,信息檢索和答案生成。
問答系統研究包含三個基本問題:如何將自然語言在計算機中表示出來,讓計算機理解其語義,如何選取最優的答句,以及將答案映射為自然語言表示出來。
(1)提問處理模塊:負責處理用戶的問題,生成查詢關鍵詞,確定問題答案的類型以及問題的語義表示。
(2)檢索模塊:根據提問處理模塊所轉換的語義表示,使用強化學習和檢索方式篩選出候選答案。
(3)答案抽取模塊:依據某種打分規則,對檢索模塊的候選答案進行打分,返回得分最高的那個候選項。
5 問答系統的分類與技術
按照問答系統的任務類型,大致可分為兩種類型: (1)面向任務型問答系統;
(2)面向非任務型問答系統。
面向任務型問答系統的目的是完成具體的任務,例如查詢酒店,訂餐等。面向非任務問答系統的主要目的是和用戶進行自由交流,很典型的就是當前流行的聊天機器人。
面向非任務問答系統的主要有三種方法:
(1)基于檢索的方法,從事先定義好的數據庫中,根據某種規則,選出最合適的答案。優點是通俗易懂,易于解釋,但缺點也很明顯,非常依賴事先定義的數據庫和檢索算法,如果數據質量不高,那么很可能效果就很差。
(2)基于生成的方法,這是當前研究領域的一個主流熱點,它是通過理解提問的問題,來生成適當的回復,典型的生成模型有seq2seq,transformer等。它的優點是不依賴定義好的數據庫,可以靈活回復,缺點是容易生成一些無意義的回復和重復的回復等。
(3)基于檢索和生成混合的方法,結合檢索回復較為精確和生成回復較為靈活的優點,可以大大提升問答系統的回復效率和性能。這也是問答系統實際商業應用的主流方法。
6 問答系統的評估
如何評價一個問答系統也是問答系統的一個重要方面,然而由于回復的多樣性,當前業界很難有統一的評價標準。
面向任務型問答系統可以用任務的完成情況來給出評價。
面向非任務型問答系統通常有以下幾種評價方法:
(1)計算嵌入距離,可分為三種情況,一種是直接求和再取平均,一種是先取絕對值,然后求平均,還有一種是貪心匹配。
(2)評測多樣性,計算distinct-ngram的數量和熵值。
(3)圖靈測試,用retrieval的discriminator來評估問答系統所生成的回復。
7 問答系統的挑戰與未來展望
深度學習的革命性發展給問答系統帶來了長足的進步,從序列到序列的模型,到端到端的模型,再到最近很火的預訓練,給問答系統留下無限的發展空間。盡管深度學習技術獲得了快速的發展,但目前仍達不到商業普及應用的要求,問答系統仍然有著一些挑戰,如語義嵌入尚不完善,如何利用大量的無標注數據,如何將常識庫加入問答系統等等。接下來,我們將討論一些可能的發展方向。
7.1 預訓練
谷歌的BERT刷新了多項nlp記錄,也為問答系統開辟了新的道路。充分利用大量無標注的文本數據,將常識引入問答系統,是問答系統走向通用智能的一個可能的趨勢。
7.2 通用模型
由于各個領域的知識數據結構的不同,每個領域的問答系統框架也不同,導致當前的問答系統仍主要用于單一領域。而處理多領域多語言的問答系統是至關重要的,遷移學習和主動學習則是解決此問題的一種趨勢。
7.3 深度推理
當前的問答系統大都基于標注好的數據和事先定義的數據庫,在回復生成上仍缺少多樣性,其根本原因在于當前的問答系統仍無法深刻的理解真實世界,無法有效理解自然語言的豐富信息。語言的本質是一個個符號,符號與符號之間的關系神經網絡可以學習到,但符號背后的物理世界則是計算機所無法理解的,如何讓計算機有效獲取物理世界的信息是極其重要的一步。
參考文獻
[1]李沛晏,朱露,吳多勝.問答系統綜述[J].數字技術與應用,2015(04):69+71.
[2]毛先領,李曉明.問答系統研究綜述[J].計算機科學與探索,2012,6(03):193-207.
[3]劉里,曾慶田.自動問答系統研究綜述[J].山東科技大學學報(自然科學版),2007(04):73-76.
[4]Chen H, Liu X, Yin D,et al. A Survey on Dialogue Systems[J]. ACM SIGKDD Explorat ions Newslet ter,2017,19(2): 25-35.
[5]Arora S, Batra K,Singh S. Dialogue system: A brief review[J]. arXivpreprint arXiv: 1306. 4134,2013.
[6]Devlin J,Chang M W,Lee K,et al. Bert: Pre-training of deepbidi rect ional transformers forlanguage understanding[J]. arXivpreprint arXiv: 1810. 04805,2018.
[8]王東升,王衛民,王石,符建輝,諸峰.面向限定領域問答系統的自然語言理解方法綜述[J].計算機科學,2017,44(08):1-8+41.
[9]李舟軍,李水華。基于Web的問答系統綜述[J].計算機科學,2017,44(06):1-7+42.
[10]何靖.開放域問答系統研究綜述[A].中國中文信息學會信息檢索與內容安全專業委員會.第六屆全國信息檢索學術會議論文集[C].中國中文信息學會信息檢索與內容安全專業委員會:中國中文信息學會,2010:8.
轉載注明來源:http://www.hailuomaifang.com/1/view-14841832.htm