基于GASpy的材料模擬計算框架
來源:用戶上傳
作者:陽王東 楊昊 冷燦 潘佳銘 唐卓 田澤安 李肯立
摘要:隨著信息學和數據科學工具的發展,各種計算機科學軟件在材料模擬計算領域的應用不斷增加.為了加速催化劑的篩選,開展了基于信息工具如何改善和增強材料篩選的研究,介紹一種基于第一性原理的高通量材料集成計算框架GASpy(Generalized Adsorption Simu?lator for Python).該框架支持計算任務的自動化流程管理,可以借助Fireworks調用DFT(Den?sity Functional Theory)計算,并可以將運算結果以及中間步驟保存至MongoDB數據庫.平臺支持與不同高性能計算集群的動態綁定,支持大批量計算作業的生成、提交.平臺同時支持數據的提取、自動存儲.利用GASpy在天河一號上對材料網站上獲取的晶體結構進行了實驗測試,進行晶體結構優化并計算吸附能,結果表明結合各種信息學工具可以更加靈活高效地實現大規模自動化的DFT材料模擬計算,在模擬電催化領域有較好的應用前景.
關鍵詞:GASpy;第一性原理;高通量框架;DFT;材料模擬計算
中圖分類號:TP315
文獻標志碼:A
半個世紀之前,材料科學的迅速發展帶動了科學技術的進步與經濟的發展.在這個過程中,從新物質的發現到實際應用的周期時間較長,有的甚至長達十幾年,新材料的開發和生產成為制約一個國家工業化發展的因素之一.傳統的材料研發局限于以專家試驗為主的“試錯法”,這種方法模式單一,需要多年的經驗以及相關知識的積累,開發周期較長,開發成本較高,而且回報率比較低[1].
同時傳統方法面臨著日益嚴峻的化石能源危機與環境污染等問題.為了解決這個問題,人們提出了各種替代方案.這些方案包括使用光電、電池、太陽能燃料和化學品、燃料電池以及其他新興技術.發展可再生綠色能源的轉換技術對優化能源結構具有重大意義.這些技術的一個共同問題是,研究人員仍然需要進行額外的材料開發,以提高經濟可行性.一些研究人員已經轉向計算模擬來幫助材料篩選和開發.
現今計算機技術和各種信息學工具的發展為加快新材料模擬和性能預測提供了新的機會.面臨著智能制造行業和經濟的飛速發展,越來越多研究人員將以更短的時間、更低的成本縮短新型材料從發現到生產應用的研究使用周期.
人類基因組計劃是結合已知的基因數據,用可拓展的理論去模擬未知的基因組合.新材料的發現過程與這種情況相似,通過高性能的計算方式,去發現更多的我們還未發現的材料,同時利用高通量的數據處理方式,為新材料的發現以及生產設計提供更廣闊的數據基礎,擴大了模型的篩選模式,減少了研發周期和性能測試時間和糾錯時間,為新材料的研究趨勢貢獻新的力量.
在材料學、計算科學等領域,會經常運用第一性原理,與“試錯法”相比,第一性原理計算方法的優勢十分明顯,它能夠確定表面弛豫、吸附等.對比實驗研究,第一性原理計算能加快人們提出合理實驗方案的速度.隨著電子信息技術的高速發展,第一性原理計算,在材料模擬計算方面有了很大的進步,第一性原理計算已經成為計算材料科學的重要基礎和核心內容[2].
研究人員采用密度泛函理論(DFT)來預測析氫反應的電催化性能[3].DFT還用于預測電池電解液穩定[4],DFT和分子動力學(MD)用于預測材料的光學帶隙[5-6].當遇到搜索空間逐步增大的情況,這些模擬的設置在計算上可能是昂貴的和耗時的.所以許多研究人員已經開始構建或使用信息科學工具,如工作流管理器、數據庫或代理模型來加速他們的材料開發.這些類型的信息工具在軟件工程領域很豐富,但在材料模擬計算領域卻不常見.
晶體材料的大范圍篩選并非一件容易的事情.有些方法通過關注有限的搜索空間來解決這個問題,比如雙金屬A、B晶體[7]或簡單的立方晶格金屬間化合物[8].其他的方法還包括建立電子結構計算的數據庫[9-10].大量的數據集對于進行穩健的篩選研究是必要的,但創建這些數據庫需要數十位DFT專家的合作.這種方法的結果是,研究人員花費了大量的時間配置、管理和等待DFT計算,這本身就是一種耗時的工作.配置和管理DFT計算的人員成本已經通過創建基于計算機科學的解決方案得到了有效解決.
信息學和數據科學工具在材料模擬計算研究中的應用不斷增加,徹底改變了材料發現的方法.
在本文中我們首先討論了計算機軟件工具如何增強和改善材料篩選和發展,并實現了工作流、數據庫和Docker容器的組合.然后我們描述了一種框架GASpy,GASpy框架可以跨多個計算集群進行密集型計算.這些解決方案對于進行高通量材料篩選是至關重要的,它使用動態依賴圖來共享、組織和調度計算,以實現表面科學中新的、靈活的研究工作流,該框架可以用于金屬間化合物表面的大規模材料計算以發現電化學催化劑.最后,我們在天河一號上利用此高通量模擬計算框架對從材料數據庫中獲取的晶體結構數據進行了模擬實驗.驗證了該框架在解決實際問題中的可行性.
1信息學工具
1.1數據庫計算機科研工作者經常共享數據,以避免執行
冗余計算,在過去,我們只是簡單地將結果存儲在共享計算機資源的文件系統中,然后報告文件的位置,以便協作者手動搜索和解析數據.該方法簡單靈活,但隨著數據量大,耗時長,它會變得難以處理.這種方法還要求我們的合作者擁有與我們相同的計算資源,這對其他研究團隊,特別是實驗人員來說是一個障礙.計算機和材料計算領域的科學家通過創建包含底層數據的新格式或創建數據集來解決這個問題,這些數據庫允許我們系統地存儲和共享數據.使用數據庫還可以減少材料計算領域的科研工作者冗余的計算.
在材料模擬中使用數據集的例子有很多.一個廣泛使用的數據庫工具是原子仿真環境(ASE)中的數據庫模塊,此模塊是開源的.它將仿真結果作為ASE原子對象存儲在自定義SQL模式中[11].許多計算材料庫中收集了用于小型計算的此類數據庫示例[12].ASE原子對象也可以存儲在靈活的Mongo模式中,使用開源的Vasp模塊[13]或更專門的開源pymatgen-db模K[14].其他大型數據庫的例子包括但不限于OQMD[15]、TheMaterials Project[16]、Aflow?lib[17]、和NOMAD.隨著數據量的增大,數據如何存儲和檢索將成為難題,由于大量的材料數據產生,機器學習已經成為一個主要的數據挖掘的工具.OQMD、AFLOW和NOMAD等數據庫中均引入了機器學習算法,加速材料知識的挖掘.
nlc202204111628
轉載注明來源:http://www.hailuomaifang.com/4/view-15427903.htm