關鍵詞:大數據 gene panel 并行優化 負載均衡
摘要:隨著二代測序技術的快速發展,基因測序成本迅速下降,這導致基因數據的爆炸式增長,基因數據分析工具逐漸無法滿足如此大規模的數據分析需求.一方面,基因數據分析工具大多仍為串行執行,無法有效地利用多核結構提升性能并導致計算資源的嚴重浪費;另一方面,由于前期設計和開發的局限性,分析工具所依賴的底層算法庫不能兼顧高性能與友好的用戶接口.Gene Panel是當前主流的面向癌癥檢測的基因數據分析流程,它也是由多種基因數據分析工具組成的.該文面向Gene Panel流程:(1)設計并實現了一套全新的并行Gene Panel基因數據分析流程,通過數據并行和任務并行兩種主要并行手段并結合負載均衡等其他優化方法,有效地提升了多核平臺的資源利用率,并獲得了4~7倍的整體加速比;(2)設計并實現了一種接口友好的高性能基因數據分析底層庫HCC.由于相似的算法特征,該文的優化方法同樣適用于除Gene Panel外的其他測序流程.
計算機學報雜志要求:
1.來稿要求論點明確,數據,條理清晰,文字精練,字跡清楚.
2.為了使審理過程順利進行,在投稿的同時,作者需附一份關于文章所述工作的背景。將研究背景同文章放在同一個文件中,另起一頁。并且需向編輯部聲明:稿件內容屬于作者的科研成果;署名無爭議;引用他人成果已注明出處;未公開發表過.
3.稿件首頁包括下列內容:題目、真實姓名、詳細工作單位、城市及郵政編碼、200字的中文摘要和3-5條關鍵詞.文末附上稿件的英文文摘,包括英文題目、漢語拼音的姓名、工作單位的英文譯名、200個單詞以上的英文摘要和3-5條與中文關鍵詞對應的英文關鍵詞.請將作者的Email、聯系地址、電話放在文章的首頁下方。
4.來稿必須做到清稿定稿.稿件中的外文字母必須分清大、小寫,正、斜體;上、下角的字母、數碼和符號,其位置高低應區別明顯;符號及時次出現時需要進行說明。
5.文中的計量單位一律使用《中華人民共和國法定計量單位》.文中圖表只附必要的,插圖要精繪,圖中文字書寫清楚.插圖和照片不得用復印件,必須是清繪圖和原照片.圖、表應貼在正文中的相應位置上.圖、表和公式分別用阿拉伯數字全文統一編號.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社