關于人工智能阿法元綜述
來源:用戶上傳
作者:
【摘要】2017年10月19日,人工智能阿法元(AlphaGo Zero)第一次為人所知曉。它在圍棋學習之路上從零開始,自娛自樂,自己參悟,用極短的時間以100比0的成績打敗了“哥哥”阿法狗(曾戰勝圍棋世界冠軍李世石轟動全世界)。以深度強化學習為核心技術的阿法元,是人工智能領域的最前沿成果,也是發展趨勢。合理發展、應用本技術,將對各領域均有極大的推動作用,甚至改變整個工業界的面貌?;诖?,其對于公安系統中的信息化偵查領域同樣具有跨時代的里程碑意義。
【關鍵詞】人工智能 阿法元 深度強化學習
一、阿法元的概念及發展背景
?。ㄒ唬└拍?
阿法元(AlphaGo Zero),是谷歌2017年目前為止最新一代的人工智能。這一代算法被項目負責人Deepmind命名為阿法元,“元’,含有起點,創世之意。,意思是從零開始。一方面說,這個算法是不需要人類數據指導,也不需要它哥哥(Alpha60)指導,就自己演化出來。另一方面也可以理解為它可以開啟新紀元。
阿法元僅擁有4個TPU,大大節省了材料成本,效益卻成倍增長。以深度強化學習為核心技術,其發展趨勢充滿無限可能性。
?。ǘ┌l展背景
人工神經網絡在上世紀四十年代就出來了,卻無法解決“異或問題”,而且訓練起來太麻煩。到了上世紀七十年代,神經網絡的算法得到更新,提高了效率,用多層神經網絡把異或問題解決了,也把神經網絡帶入一個新紀元。上世紀八九十年代,人工神經網絡的研究迎來了一場大火,學術圈發了成千上萬篇關于神經網絡的論文,從設計到訓練到優化再到各行各業的應用。直至2016年3月更新算法的阿法狗戰勝了被聶衛平估算為的20段的世界棋手冠軍,基于此神經網絡的算法優化,谷歌新一代的人工智能阿法元以100比0的勝率又碾壓了阿法狗,其只需要在4個TPU上花3天時間,自己左右互搏490萬棋局。而它的上一代阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬個棋局,才打敗人類。阿法狗項目負責人介紹說阿法元遠比阿法狗強大,因為它不再被人類認知所局限,而能夠發現新知識和新策略。
?。ㄈ┖诵募夹g:強化學習
阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智能的技術角度看,這是強化學習的勝利,在不進行監督學習的情況下,就可以達到一個高于人類的境地。
強化學習的先進性需通過與監督學習的基本思想對比中體現出來。監督學習、強化學習和無監督學習是機器學習的三大框架。某一個意義說,監督學習是給定輸入和輸出,機器來學習輸入和輸出的關系,一個好的監督學習算法猶如一個預言家,它能夠根據自己之前見過的輸入輸出關系來預測未知的輸入。
強化學習的三元素是狀態,行為和環境獎勵。強化學習條件下,學習者每一步看到的是它決策的行為結果,然后導致下一步行動,為了最終游戲的勝利。
強化學習強在決策。監督學習是預言家,強化學習是決策家。
二、阿法元的特點
?。ㄒ唬┻\行模式的輕捷高效性
阿法狗升級至阿法元縮減了44個TPU,僅擁有4個TPU,計算速度也提升了幾個月的跨度,這一突破,相當于一個科研團隊縮減了44個智商超群的人,但是其工作效率還大大提升了很多。
?。ǘW習手段的自主性
阿法元運用強化學習這一核心技術,完全在沒有人類幫助、沒有任何先驗知識的基礎上無師自通,自主學習,是人工智能在這一年代最大的突破。
?。ㄈW習方法的非人類思維性
美國的兩位棋手在《Nature》上點評:“阿法元的開局和收官和專業棋手的下法并無區別,人類幾千年的智慧結晶,看起來并非全錯,但是中盤看起來則非常詭異?!睂W習人類選手的下法雖然能在訓練之初獲得較好的棋力,但在訓練后期所能達到的棋力卻只能與原版的阿法狗相近,而不學習人類下法的阿法元最終卻能表現得更好。美國杜克大學人工智能專家陳怡然教授對此的解釋是:阿法元降低了訓練復雜度,擺脫了對人類標注樣本(人類歷史棋局)的依賴,讓深度學習用于復雜決策更加方便可行。
(四)應用領域的廣域性
只要設計好一個項目的規則,阿法元就能自主進行學習和運作?;谶@一核心特點,可以估計當技術完備成熟的時候,各領域都可以很方便得到應用,可以大大節省人力物力財力。
三、阿法元在信息化偵查領域的應用
阿法元的運作模式,形象的可以比喻為,看了《信息化偵查教程》的第一個字,就能猜出并學會其所有的內容。人工智能領域中,對話、知識、成長這三大能力決定著未來。將阿法元分別運用至這三個方面,在信息化偵查領域可以構想:
可以以對話的形式解決人工錄入人員、住所、車輛等等繁瑣信息所花費人力物力財力的基礎消耗,可以大大提升信息化模式的效率。
可以智能分析串并案件。傳統辦案都是以人到案、以案到人,總歸需要一個觸發條件,在人為意識的認知下,才能主動的去尋找串并案件的聯系。使用阿爾法技術的系統,可以實現在無人操作的狀態下,自主尋找的關聯案件,并根據一定規則實現自主串并案件,可以實現的話則大大加快了辦案效率。
可以實現智能信息化追蹤。信息化偵查涉及的模塊有:GPS資源,住宿資源,物流資源,資金資源,監控資源,通信資源,網絡資源等,傳統信息化偵查方法需人工在各類資源中進行檢索,而阿法元可以自行在各個領域提取相關信息,不需人為主觀選擇某一領域去嘗試,提高了容錯率,大大縮短人為的分析時間。
轉載注明來源:http://www.hailuomaifang.com/2/view-14829796.htm