關于人工智能阿法元綜述

> 中國論文網 >
經濟論文 >
關于人工智能阿法元綜述

關于人工智能阿法元綜述

來源:用戶上傳作者:

　　【摘要】2017年10月19日，人工智能阿法元（AlphaGo Zero）第一次為人所知曉。它在圍棋學習之路上從零開始，自娛自樂，自己參悟，用極短的時間以100比0的成績打敗了“哥哥”阿法狗（曾戰勝圍棋世界冠軍李世石轟動全世界）。以深度強化學習為核心技術的阿法元，是人工智能領域的最前沿成果，也是發展趨勢。合理發展、應用本技術，將對各領域均有極大的推動作用，甚至改變整個工業界的面貌?；诖?，其對于公安系統中的信息化偵查領域同樣具有跨時代的里程碑意義。
　　【關鍵詞】人工智能阿法元深度強化學習
　　一、阿法元的概念及發展背景
　?。ㄒ唬└拍?
　　阿法元（AlphaGo Zero），是谷歌2017年目前為止最新一代的人工智能。這一代算法被項目負責人Deepmind命名為阿法元，“元’，含有起點，創世之意。，意思是從零開始。一方面說，這個算法是不需要人類數據指導，也不需要它哥哥（Alpha60）指導，就自己演化出來。另一方面也可以理解為它可以開啟新紀元。
　　阿法元僅擁有4個TPU，大大節省了材料成本，效益卻成倍增長。以深度強化學習為核心技術，其發展趨勢充滿無限可能性。
　?。ǘ┌l展背景
　　人工神經網絡在上世紀四十年代就出來了，卻無法解決“異或問題”，而且訓練起來太麻煩。到了上世紀七十年代，神經網絡的算法得到更新，提高了效率，用多層神經網絡把異或問題解決了，也把神經網絡帶入一個新紀元。上世紀八九十年代，人工神經網絡的研究迎來了一場大火，學術圈發了成千上萬篇關于神經網絡的論文，從設計到訓練到優化再到各行各業的應用。直至2016年3月更新算法的阿法狗戰勝了被聶衛平估算為的20段的世界棋手冠軍，基于此神經網絡的算法優化，谷歌新一代的人工智能阿法元以100比0的勝率又碾壓了阿法狗，其只需要在4個TPU上花3天時間，自己左右互搏490萬棋局。而它的上一代阿法狗，需要在48個TPU上，花幾個月的時間，學習三千萬個棋局，才打敗人類。阿法狗項目負責人介紹說阿法元遠比阿法狗強大，因為它不再被人類認知所局限，而能夠發現新知識和新策略。
　?。ㄈ┖诵募夹g：強化學習
　　阿法元卻能夠在不用那3000萬數據的時候來個完勝阿法狗。從人工智能的技術角度看，這是強化學習的勝利，在不進行監督學習的情況下，就可以達到一個高于人類的境地。
　　強化學習的先進性需通過與監督學習的基本思想對比中體現出來。監督學習、強化學習和無監督學習是機器學習的三大框架。某一個意義說，監督學習是給定輸入和輸出，機器來學習輸入和輸出的關系，一個好的監督學習算法猶如一個預言家，它能夠根據自己之前見過的輸入輸出關系來預測未知的輸入。
　　強化學習的三元素是狀態，行為和環境獎勵。強化學習條件下，學習者每一步看到的是它決策的行為結果，然后導致下一步行動，為了最終游戲的勝利。
　　強化學習強在決策。監督學習是預言家，強化學習是決策家。
　　二、阿法元的特點
　?。ㄒ唬┻\行模式的輕捷高效性
　　阿法狗升級至阿法元縮減了44個TPU，僅擁有4個TPU，計算速度也提升了幾個月的跨度，這一突破，相當于一個科研團隊縮減了44個智商超群的人，但是其工作效率還大大提升了很多。
　?。ǘW習手段的自主性
　　阿法元運用強化學習這一核心技術，完全在沒有人類幫助、沒有任何先驗知識的基礎上無師自通，自主學習，是人工智能在這一年代最大的突破。
　?。ㄈW習方法的非人類思維性
　　美國的兩位棋手在《Nature》上點評：“阿法元的開局和收官和專業棋手的下法并無區別，人類幾千年的智慧結晶，看起來并非全錯，但是中盤看起來則非常詭異?！睂W習人類選手的下法雖然能在訓練之初獲得較好的棋力，但在訓練后期所能達到的棋力卻只能與原版的阿法狗相近，而不學習人類下法的阿法元最終卻能表現得更好。美國杜克大學人工智能專家陳怡然教授對此的解釋是：阿法元降低了訓練復雜度，擺脫了對人類標注樣本（人類歷史棋局）的依賴，讓深度學習用于復雜決策更加方便可行。
　　（四）應用領域的廣域性
　　只要設計好一個項目的規則，阿法元就能自主進行學習和運作?；谶@一核心特點，可以估計當技術完備成熟的時候，各領域都可以很方便得到應用，可以大大節省人力物力財力。
　　三、阿法元在信息化偵查領域的應用
　　阿法元的運作模式，形象的可以比喻為，看了《信息化偵查教程》的第一個字，就能猜出并學會其所有的內容。人工智能領域中，對話、知識、成長這三大能力決定著未來。將阿法元分別運用至這三個方面，在信息化偵查領域可以構想：
　　可以以對話的形式解決人工錄入人員、住所、車輛等等繁瑣信息所花費人力物力財力的基礎消耗，可以大大提升信息化模式的效率。
　　可以智能分析串并案件。傳統辦案都是以人到案、以案到人，總歸需要一個觸發條件，在人為意識的認知下，才能主動的去尋找串并案件的聯系。使用阿爾法技術的系統，可以實現在無人操作的狀態下，自主尋找的關聯案件，并根據一定規則實現自主串并案件，可以實現的話則大大加快了辦案效率。
　　可以實現智能信息化追蹤。信息化偵查涉及的模塊有：GPS資源，住宿資源，物流資源，資金資源，監控資源，通信資源，網絡資源等，傳統信息化偵查方法需人工在各類資源中進行檢索，而阿法元可以自行在各個領域提取相關信息，不需人為主觀選擇某一領域去嘗試，提高了容錯率，大大縮短人為的分析時間。
轉載注明來源:http://www.hailuomaifang.com/2/view-14829796.htm

查看更多→

關于人工智能阿法元綜述

相關文章