lncRNA與疾病關聯關系預測研究進展
來源:用戶上傳
作者:
摘 要:lncRNAs(long noncoding RNAs)是一類長度超過200個核苷酸的非編碼RNAs,越來越多的證據表明lncRNAs在許多生物過程中起關鍵作用。lncRNAs也與多種疾病的發生和發展有密切的聯系。近年來,很多研究人員關注于預測lncRNA與疾病的關聯預測的計算模型,這可以有效地減少生物實驗的時間和成本。本文總結了近年來有關lncRNA與疾病關聯預測的一些數據資源和有代表性的計算方法,并對當前存在的問題進行了分析,討論了未來的挑戰和發展方向。
關鍵詞: lncRNAs;疾病;lncRNA-疾病關聯;計算方法
文章編號: 2095-2163(2019)03-0211-05 中圖分類號: TP311.13 文獻標志碼: A
0 引 言
隨著人類基因組計劃的完成,蛋白質編碼基因僅占整個基因組的約1.5%,這意味著超過98%的人類基因組還不是編碼蛋白質序列,這些基因組區域通常轉錄為非編碼RNA(ncRNA)[1]。在很長一段時間里,非編碼RNA在生物學上被認定是轉錄噪聲[2]。然而,越來越多的研究表明,非編碼RNA在許多生物過程中發揮著關鍵作用。其中,lncRNAs(long noncoding RNAs)就是一類長度超過200個核苷酸的非編碼RNAs。近年來,lncRNAs引起了研究人員的高度關注,因為已有證據指出lncRNA在多種生物機制中扮演重要角色,如表觀遺傳調控、染色質重構、基因轉錄、蛋白質轉運、細胞分化、細胞運輸等[3]。此外,lncRNAs的突變和失調與肺癌、乳腺癌、卵巢癌、腎病、心血管疾病、自身免疫疾病等多種疾病的發生和發展有密切的關系[4]。盡管已經取得了一定的研究成果,但對于生物學家和遺傳學家來說,確定那些未知的關聯關系仍可堪稱是一個重大的挑戰。傳統的生物實驗和臨床方法會耗費大量的時間和精力,因此時下的眾多研究者正致力于開發有效的計算方法來解決這一問題。近年來,研究人員提出了一些計算模型和方法來預測lncRNA與疾病的關聯關系。
本文綜述了近年來涌現的一些預測疾病相關的候選lncRNA的算法和工具,闡述了lncRNA-疾病關聯關系預測的研究進展。預測方法主要分為2類:基于生物網絡的方法和基于機器學習的方法,本文重點探討了其中一些方法。最后,則總結了當前的關鍵問題和未來的研究方向。
1 相關數據資源
隨著生物數據的快速增長,研究人員建立了一些特定的數據庫來存儲和管理數據。本節擬集中推介一些和lncRNA、疾病相關的公共數據資源,詳情可見如下。
1.1 lncRNA數據資源
NONCODE(http://www.bioinfo.org/noncode/)[5]是一個包含幾乎所有非編碼RNA的綜合知識庫。其中涵蓋16種(人類、小鼠、牛、大鼠、黑猩猩、大猩猩、猩猩、酵母、果蠅、擬南芥等)和527 336個lncRNA轉錄本。
LNCipedia(http://www.lncipedia.org/)[6]是一個人類lncRNA的綜合數據庫,通過整合不同的數據,當前版本包含了120 353個人類lncRNA轉錄物。而且,也研發提供了預測蛋白質編碼能力的實用工具。
lncRNAdb(http://www.lncrnadb.org)[7]是一種知識資源,旨在提供真核生物非編碼RNA的全面注釋。在該數據庫中,每個條目包含lncRNA的序列、結構、基因組語境、基因表達、亞細胞定位、保守性和功能信息。用戶可以搜索和下載lncRNA信息并提交新條目。
LncRBase(http://bicresources.jcbose.ac.in/zhumur/lncrbase)[8]是人類和小鼠lncRNA的存儲庫,總共包含216 562個lncRNA轉錄物條目。在該數據庫中,已廣泛收集了基本的lncRNA轉錄特征、基因組位置、重疊小非編碼RNA、相關重復元件、相關印記基因和lncRNA啟動子信息。
1.2 疾病數據資源
Disease Ontology(http://disease-ontology.org)[9]是馬里蘭大學醫學院基因組科學研究所主辦的與人類疾病相關的生物醫學數據整合的開放數據庫。設計上包含了8 043個遺傳,發育和獲得性人類疾病,旨在通過疾病概念連接不同的數據集。
Medical Subject Headings(https://www.ncbi.nlm.nih.gov/mesh)是用于索引生命科學文章的綜合受控詞匯表詞庫。有27 883個描述符和87 000個按照層次結構樹排列的條目。
OMIM(http://www.omim.org/)[10]是由約翰霍普金思大學醫學院McKusick-Nathans遺傳醫學研究所維護的人類基因和遺傳疾病在線知識庫。截至2017年5月26日,共有24 065個條目。
1.3 lncRNA-疾病關聯關系相關數據資源
LncRNADisease(http://www.cuilab.cn/lncrnadisease)[11]是手動收集的經過實驗驗證的lncRNA-疾病關聯關系數據庫。當前版本包含大約3000個lncRNA-疾病對和475個lncRNA相互作用對,其中涉及大約2 000個出版文獻中的914個lncRNA和329種疾病。
Lnc2Cancer(http://www.bio-bigdata.net/lnc2cancer)[12]是一個癌癥相關lncRNAs資源,搜集包含了666個人類lncRNA和97個人類癌癥之間的1 488條關聯條目。與此同時,還提供了lncRNA表達模式、實驗技術、簡要功能描述、原始參考和附加注釋信息。此外,也允許用戶搜索、瀏覽和下載數據以及向數據庫提交新數據等操作。 MNDR(http://www.rna-society.org/mndr)[13]是哺乳動物非編碼RNA-疾病關系在線知識庫,當前版本包含了807個lncRNA相關、229個miRNA相關、13個piRNA相關和100個snoRNA相關的數據條目。
2 交叉驗證
為了評估算法的效果,對于lncRNA-疾病關聯關系預測,通常對研究提出的模型進行留一交叉驗證(LOOCV)或5-折交叉驗證。其中,LOOCV在已知的、經過實驗驗證的lncRNA-疾病關聯關系上設計發生,關聯關系中的每一對作為測試樣本,而剩余的用于訓練模型。如果測試樣本的排名高于特定閾值,就可以認為正確預測了這個lncRNA-疾病關聯關系對。有2種類型的LOOCV,分別為:全局LOOCV和局部LOOCV。對于全局LOOCV,測試樣本的排名被列入所有調查疾病的全部未知候選微生物-疾病關聯對中。對于局部LOOCV,測試樣本僅在給定疾病的其它未知的疾病相關lncRNA中進行排名。即2種LOOCV的主要區別在于是否考慮了所有被調查的疾病。而-5折交叉驗證將所有已知的、經過驗證的lncRNA-疾病關聯對隨機分為5組。不是選擇一個lncRNA-疾病關聯對作為測試樣本,而是將這5組中的每一組輪流作為測試集,而其它4組作為訓練集。為了直觀地評估性能,研究者一般選擇接受者操作特征曲線(ROC),這是評估二元分類模型的常用方法。研究中,敏感度(sensitivity)和特異度(specificity)是ROC曲線中使用的2個關鍵指標。對于lncRNA-疾病關聯關系的預測,敏感度表示出一個測試被正確識別的比例,而特異度表示出一個測試被錯誤地認為有關聯關系的比例。利用這種方式,通過不斷改變閾值,使用真陽性率(敏感度)與假陽性率(1-特異度)繪制ROC曲線來做出比較。ROC曲線下的面積也通常用于測試性能。一般地,AUC=0.5表示效果是隨機的,AUC=1表示效果完美。
3 計算方法
越來越多的證據表明,lncRNA的突變和失調與多種人類疾病密切相關,lncRNA功能及其與人類疾病的關系引起了更多研究者的興趣與重視。計算模型可能是識別潛在lncRNA功能和lncRNA-疾病關聯關系的有效方法。本節論述了一些用于識別lncRNA-疾病關聯的計算方法,詳情可見如下。
3.1 基于生物網絡的方法
具有相似功能lncRNA可能與表型相似的疾病相關,根據這個假設,一些研究人員提出了數種基于生物網絡的方法來預測疾病相關的lncRNA,對此可做闡釋解析如下。
Sun等人[14]基于lncRNA功能相似網絡提出了一種基于全局網絡的計算方法RWRlncD。研究中,在相繼構建了lncRNA-疾病關聯網絡、疾病相似性網絡和lncRNA功能相似網絡后,RWRlncD通過在lncRNA功能相似網絡上進行隨機游走重啟(RWR)來預測潛在的lncRNA-疾病關系?;谝羊炞C的lncRNA-疾病關聯關系,RWRlncD在LOOCV下獲得0.822的AUC。然而此方法不能應用于沒有任何已知相關lncRNA的疾病。當未來有更多lncRNA-疾病關聯和更準確的lncRNA功能相似性度量時,RWRlncD的預測性能將會改善。
此后,研究立足于有更多共同的miRNA相互作用的lncRNA傾向于與相似的疾病相關聯的假設,Zhou等人[15]又提出了RWRHLD模型預測潛在的lncRNA-疾病關聯關系。RWRHLD將3個網絡(miRNA相關聯的lncRNA-lncRNA串擾網絡、疾病相似性網絡和已知的lncRNA疾病關聯網絡)整合為一個網絡,并在其上進行隨機游走。基于已知實驗驗證的lncRNA-疾病關聯,RWRHLD在LOOCV下獲得0.871的AUC值。然而,RWRHLD僅適用于具有已知的lncRNA-miRNA相互作用的lncRNA,此外lncRNA串擾網絡和lncRNA-疾病關聯網絡的不完全覆蓋可能會降低模型預測性。
Yang等人[16]基于已知疾病基因和lncRNA-疾病關聯構建了編碼-非編碼基因-疾病二分網絡,并進一步實現了該二分網絡上的傳播算法,以推測潛在的lncRNA-疾病關聯。該方法在LOOCV下獲得了0.788 1的AUC。然而,非編碼基因、蛋白質編碼基因和lncRNA功能注釋之間相互作用的缺失卻影響了方法的性能。
除了單層的網絡,一些研究人員嘗試構建了lncRNA-疾病的多級網絡,并據此基于多級網絡來研究識別新的疾病相關lncRNA。
Yao等人[17]提出了基于多層復合網絡來預測疾病相關lncRNA的算法LncPriCNet。研究通過將表型-表型相互作用、lncRNA-lncRNA相互作用以及基因-基因相互作用與疾病-ncRNA關系相結合來構建復合網絡,而后再使用隨機游走重啟算法(RWR)來預測候選的疾病相關lncRNA。當已知疾病的lncRNAs信息不足時,LncPriCNet依然表現良好。原因可能是多層復合網絡能夠支持更多的信息交互。
Zhang等人[18]基于多種生物信息提出了LncRDNetFlow算法。該算法整合了多個網絡,包括lncRNA相似性網絡、蛋白質相互作用網絡、疾病相似性網絡以及相互之間的關聯網絡,并在異構網絡上利用流傳播算法來預測lncRNA-疾病關聯,最終在LOOCV下達到0.841的AUC。此方法能夠在沒有已知關聯的情況下預測新的關聯關系。究其原因就在于其整合了蛋白質的信息及其與lncRNAs和疾病的關聯。
3.2 基于機器學習的方法
機器學習對于預測疾病候選lncRNA有著重要作用,可根據已知疾病相關的lncRNA和未知的lncRNA特征來訓練分類器,同時根據各項集之間的生物學特征差異來對候選lncRNA進行排名。
Chen等人[19]開發了LRLSLDA(Laplacian Regularized Least Squares for LncRNA–Disease Association)計算模型,該模型是基于半監督學習框架的預測潛在疾病相關lncRNA模型。模型基于一個假設——相似的疾病傾向于與功能相似的lncRNA相關聯。LRLSLDA結合了已知的疾病-lncRNA關聯關系和lncRNA表達譜,在留一交叉驗證(LOOCV)下獲得0.776的AUC,同時也不需要負樣本的信息,而負樣本往往難以獲得。但LRLSLDA仍有一些限制,例如,模型中出現很多參數,如何選擇參數并未得到根本性的解決。此外,對同一個lncRNA-疾病關聯對會分別從lncRNA和疾病空間得到2個不同的分數,如何高效地結合2個分數也已成為時下的研究課題。 Zhao等人[20]使用已知的癌癥相關lncRNA,基于多元數據、基因組、調節物組和轉錄組的整合,開發了一種基于樸素貝葉斯分類器的模型,以識別新的癌癥相關lncRNA。該模型基于可公開獲得的多個癌癥類型的外顯子數據和小鼠的直系同源lncRNA knockdown數據,采用10折交叉驗證進行評估。測試后表明該模型顯示出良好的效果,并成功鑒定707種潛在的癌癥相關lncRNA。文獻中使用的監督分類器,如支持向量機(SVM)和樸素貝葉斯分類器的關鍵限制是需要負樣本的信息,而這在當前的研究中是無法獲得的。因此,總是隨機選擇未被標記的lncRNA-疾病關聯對作為負樣本,這就嚴重影響了預測性能。
基于功能相似的lncRNA總是與相似的疾病相關聯,Chen等人[1]通過計算與lncRNA相關的疾病組之間的語義相似性開發了2個新的模型LNCSIM1和LNCSIM2。這2個模型之間的差別就在基于疾病有向無環圖的疾病語義相似度的計算上,而這對如何有效表示不同疾病之間的關系是至關重要的。當疾病語義相似性和lncRNA功能相似性(由LNCSIM計算)與之前的LRLSLDA相結合時,得到新的lncRNA-疾病關聯預測模型LRLSLDA-LNCSIM,可以在更大程度上提升LRLSLDA的預測性能。
Biswas等人[21]提出了基于矩陣分解的lncRNA-疾病關聯預測計算模型。模型整合了lncRNA-疾病關聯關系,經過實驗驗證的基因-疾病關聯關系,基因-基因相互作用數據以及lncRNA和基因的表達譜。使用非負矩陣分解方法預測lncRNA和疾病的相互作用,并使用雙聚類來識別lncRNA模塊。
對于有監督的機器學習算法,需要假設與疾病相關的lncRNA和不相關的lncRNA是分離的,然而已被證明與疾病相關的lncRNA數量仍然較少,而且幾乎沒有實驗能夠證明那些關系不存在的,故而研究人員設計開發了一些基于半監督學習的模型。機器學習方法面臨的挑戰是如何選擇有用的生物特征來訓練分類器。因此,整合多個數據資源是提高性能的有效方法。但是,一些冗余或不相關的生物信息可能是無用的,甚至會降低性能。同時,不同的分類算法也可能僅適合不同的數據資源。因此,利用多種學習算法可以獲得更好的預測性能。
3.3 其它方法
在前述研究中分析可知,所有的計算模型均需要與已知的lncRNA-疾病關聯來實現預測。然而,即使是現在,已知的經實驗驗證的lncRNA-疾病關聯關系仍然非常有限。因此,研究人員已轉而開始探索基于已知的疾病相關基因、miRNA和lncRNA與基因或miRNA之間的關系來預測lncRNA-疾病關聯。
Liu等人[22]開發了一種不需要依賴已知lncRNA-疾病關系,而通過整合已知人類疾病基因和人類lncRNA與基因表達譜來預測潛在的人類lncRNA-疾病關聯的計算方法。在該方法中,將lncRNA分為2部分:組織特異性和非組織特異性lncRNA。首先根據不同組織中所有lncRNA的表達水平計算組織特異性評分。然后,對于組織特異性lncRNA,該計算框架推測這些lncRNA與各種人類組織相關的疾病間可能存在的關聯。此外,還可以基于疾病-基因關聯和基因-lncRNA共表達關系獲得非組織特異性lncRNA的相關疾病。該模型在LOOCV下獲得0.764 5的AUC,非組織特異性lncRNA的預測精度為0.89。然而,該方法仍然不能預測無相關基因記錄的疾病相關lncRNA。
Li等人[23]提出了一種基于基因組位置的計算方法,運行后能夠更為全面地預測與血管疾病相關的人類lncRNA。10個被預測為與血管平滑肌細胞相關的lncRNA將被選擇用于下一步的實驗驗證以測試該方法的準確性。結果,10個中共有8個得到了證實。實驗結果表明該方法的可靠預測性能及鑒定新型lncRNA用于診斷和治療血管疾病的潛在價值。然而,該方法的應用范圍尚屬有限,因為并非所有的lncRNA都具有相鄰基因,即使該lncRNA具有相鄰基因,也可能與其鄰近基因無功能相關性。
另外,統計學方法也已應用在lncRNA-疾病關聯的預測中。Chen[24]基于超幾何分布提出了HGLDA模型。通過整合疾病語義相似性,miRNA-疾病關聯和miRNA-lncRNA相互作用來計算lncRNA功能相似性。過程中,將測試lncRNA和疾病是否顯著共享可以與這兩者相互作用的常見miRNA,模型對每個lncRNA-疾病對進行超幾何分布測試。HGLDA在LOOCV下獲得0.762 1的AUC,然而,HGLDA不能應用于那些沒有任何已知miRNA相互作用的lncRNA。
4 結束語
越來越多的證據表明非編碼RNA(lncRNA)在許多人類疾病中發揮重要作用。預測新的lncRNA-疾病關聯將有助于生物學家理解疾病的致病機理。此外,這也有助于人類疾病的診斷、預防和治療。最近,很多研究人員構建計算模型來預測新的lncRNA-疾病關聯,使得顯著減少生物實驗的時間和成本已成為現實可能。本文中,擷選了一些重要的公開可用的數據庫,然后,詳述了近年來一些預測疾病相關lncRNA的計算方法,包括基于生物網絡的方法、基于機器學習的方法以及其它類型的方法,這些方法取得了一些成果,但還需要后續更大力度投入來改進現有研究。很多方法整合了其它類型的生物數據來提高性能,然而,將適合與lncRNA-疾病關聯預測的多種數據整合起來仍然頗顯困難。因此,需要開發更具針對性的方法來有效整合這些數據。對于一些機器學習模型,負樣本往往難以獲得,而且在參數選擇、分類器組合等方面也存在一定問題與不足。在很多模型中,相似性計算對關聯預測的準確性有重要影響,因此,如何設計科學合理的方法來計算相似性,同時處理整合來自不同生物信息的相似性分值也是亟待深入探討研究的關鍵問題。
參考文獻
[1]CHEN X, YAN C C, LUO C, et al. Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity[J]. Scientific Reports, 2015, 5:11338. [2] LOURO R, SMIRNOVA A S, VERJOVSKI-ALMEIDA S. Long intronic noncoding RNA transcription: Expression noise or expression choice?[J]. Genomics, 2009, 93(4):291-298.
[3] GEISLER S, COLLER J. RNA in unexpected places: Long non-coding RNA functions in diverse cellular contexts[J]. Nature Reviews Molecular Cell Biology, 2013, 14(11):699-712.
[4] CHEN X, YAN C C, ZHANG X, et al. Long non-coding RNAs and complex diseases: From experimental results to computational models[J]. Briefings in Bioinformatics, 2016, 18(4):558-576.
[5] ZHAO Yi, LI Hui, FANG Shuangsang, et al. NONCODE 2016: An informative and valuable data source of long non-coding RNAs[J]. Nucleic Acids Research, 2016, 44(Database issue):D203-D208.
[6] VOLDERS P J, HELSENS K, WANG X, et al. LNCipedia: A database for annotated human lncRNA transcript sequences and structures[J]. Nucleic Acids Research, 2013, 41(Database issue):D246-D251.
[7] QUEK X C, THOMSON D W, MAAG J L, et al. lncRNAdb v2.0: Expanding the reference database for functional long noncoding RNAs[J]. Nucleic Acids Research, 2015, 43(Database issue):168-173.
[8] CHAKRABORTY S, DEB A, MAJI R K, et al. LncRBase: An enriched resource for lncRNA information[J]. PloS One, 2014, 9(9):e108010.
[9] LYNN S, ARZE C, NADENDLA S, et al. Disease ontology: A backbone for disease semantic integration[J]. Nucleic Acids Research, 2011, 40(Database issue):940-946.
[10]AMBERGER J S, BOCCHINI C A, SCHIETTECATTE F, et al. OMIM.org: Online mendelian inheritance in man (OMIM), an online catalog of human genes and genetic disorders[J]. Nucleic Acids Research, 2015, 43(Database issue):789-798.
[11]CHEN G, WANG Z, WANG D, et al. LncRNADisease: A database for long-non-coding RNA-associated diseases[J]. Nucleic Acids Research, 2013, 41(Database issue):983-986.
[12]NING S, ZHANG J, WANG P, et al. Lnc2Cancer: A manually curated database of experimentally supported lncRNAs associated with various human cancers[J]. Nucleic Acids Research, 2016, 44(Database issue):D980-D985.
[13]WANG Y, CHEN L, CHEN B, et al. Mammalian ncRNA-disease repository: A global view of ncRNA-mediated disease network[J]. Cell Death & Disease, 2013, 4(8):e765.
[14]SUN Jie, SHI Hongbo, WANG Zhenzhen, et al. Inferring novel lncRNA-disease associations based on a random walk model of a lncRNA functional similarity network[J]. Molecular Biosystems, 2014, 10(8):2074-2081.
[15]ZHOU M, WANG X, LI J, et al. Prioritizing candidate disease-related long non-coding RNAs by walking on the heterogeneous lncRNA and disease network[J]. Molecular bioSystems, 2015, 11(3): 760-769. [16]YANG X, GAO L, GUO X, et al. A network based method for analysis of lncRNA-disease associations and prediction of lncRNAs implicated in diseases[J]. PLoS One, 2014, 9(1): e87797.
[17]YAO Qianlan, WU Leilei, JIA Li, et al. Global prioritizing disease candidate lncRNAs via a multi-level composite network[J]. Scientific Reports, 2017, 7:39516.
[18]ZHANG Jingpu, ZHANG Zuping, CHEN Zhigang, et al. Integrating multiple heterogeneous networks for novel LncRNA-disease association inference[J]. IEEE/ACM Transactions on Computational Biology & Bioinformatics, 2017, PP(99):1.
[19]CHEN Xing, YAN Guiying. Novel human lncRNA-disease association inference based on lncRNA expression profiles[J]. Bioinformatics, 2013, 29(20): 2617-2624.
[20]ZHAO T, XU J, LIU L, et al. Identification of cancer-related lncRNAs through integrating genome, regulome and transcriptome features[J]. Molecular BioSystems, 2014, 11(1): 126-136.
[21]BISWAS A K, KANG M, KIM D C, et al. Inferring disease associations of the long non-coding RNAs through non-negative matrix factorization[J]. Network Modeling Analysis in Health Informatics & Bioinformatics, 2015, 4(1):1-17.
[22]LIU Mingxi, CHEN Xing, CHEN Geng, et al. A computational framework to infer human disease-associated long noncoding RNAs[J]. PLoS One, 2014, 9(1):e84408.
[23]LI Jianwei, CHENG Gao, WANG Yuchen, et al. A bioinformatics method for predicting long noncoding RNAs associated with vascular disease[J]. Science China Life Sciences, 2014, 57(8):852-857.
[24]Chen Xing. Predicting lncRNA-disease associations and constructing lncRNA functional similarity network based on the information of miRNA[J]. Scientific Reports, 2015, 5:13186.
轉載注明來源:http://www.hailuomaifang.com/8/view-14888239.htm