關鍵詞:lightgbm 隨機森林 極端梯度增強算法 卷積自編碼器
摘要:目的非編碼RNA-蛋白質的相互作用(noncoding RNA-protein interactions,ncRPI)具有重要的生物學意義,目前預測其相互作用已成為當下研究非編碼RNA (noncoding RNA,ncRNA)和蛋白質功能的重要途徑之一。方法本研究基于ncRNA和蛋白質的序列信息提取特征,運用卷積自編碼器預處理原始數據,訓練三個機器學習模型:LightGBM(LBM)、隨機森林(random forest,RF)和極端梯度增強算法(extreme gradient boosting,XGB),預測ncRNA與蛋白質的相互作用。結果在RPI369和RPI488兩個數據集做5倍交叉驗證,LBM、RF與XGB三個模型在兩個數據集均達到較高的預測準確率,在RPI369數據集三個模型的預測準確率分別為0.757(LBM)、0.791(RF)、0.791(XGB),在RPI488數據集三個模型的預測準確率分別為0.918(LBM)、0.908(RF)、0.918(XGB);三個模型在RPI1807、RPI2241、RPI13254大數據集也取得較高的AUC(area under curve)值,在RPI1807三個模型的AUC值均為0.99,在RPI2241三個模型最低AUC值為0.87,在RPI13254三個模型最低AUC值為0.81,都表現出較好的預測準確性。結論機器學習方法能夠預測ncRNA與蛋白質是否存在相互作用。
北京生物醫學工程雜志要求:
{1}注釋對正文特定內容的解釋與說明,以及未公開發表的資料和“轉引自”等類文獻的著錄,用圈碼標引,在頁下注文。
{2}稿件要遵守國家的相關法律法規,題材貼近實際、貼近基層、貼近群眾,主題新穎、健康向上。
{3}來稿應包括題名、作者署名及通訊地址、作者簡介、摘要、關鍵詞、中圖分類號、正文、注釋、參考文獻,并將題名、作者署名及通訊地址、摘要和關鍵詞。
{4}摘要:一般為500~600字。研究論文摘要應包括研究目的、方法、結果和結論;綜述論文摘要應包括論述主題、重要進展和前景展望。
{5}文章正文的標題、表格、圖、公式以及腳注應分別連續編號。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社