成功開發(fā)基因融合檢測(cè)算法SOAPfuse
華大基因成功開發(fā)出一種基因融合檢測(cè)算法SOAPfuse。該算法具有準(zhǔn)確率高、敏感性強(qiáng)、精度高、資源消耗少等優(yōu)點(diǎn),主要采用局部窮舉算法和一系列精細(xì)的過濾策略,來對(duì)基因融合進(jìn)行快速、的檢測(cè)。SOAPfuse的研究結(jié)果已于2013年2月14日在《基因生物學(xué)》(Genome Biology)雜志上在線發(fā)表。
基因融合是指染色體上兩個(gè)異位的基因嵌合在一起,形成一個(gè)嵌合基因的現(xiàn)象。這種現(xiàn)象一般是由于染色體發(fā)生易位、缺失或者倒置造成的,它們?cè)诎┌Y的發(fā)生上扮演著重要的角色,并且可以作為診斷和治療癌癥的靶標(biāo)。基因融合現(xiàn)象zui早在血液系統(tǒng)惡性腫瘤中被發(fā)現(xiàn),其中以慢性粒細(xì)胞白血病中 BCR-ABL基因融合zui為經(jīng)典。隨著對(duì)基因融合的深入研究,科研人員發(fā)現(xiàn),除血液系統(tǒng)腫瘤外,在實(shí)體瘤中也存在著基因融合現(xiàn)象,例如新近發(fā)現(xiàn)的前列腺癌中的TMPRSS2-ERG、小細(xì)胞肺癌中的EML4-ALK、結(jié)直腸癌中的VTI1A-TCF7L2等基因融合。
傳統(tǒng)基因融合研究方法主要基于PCR和熒光原位雜交(FISH)技術(shù),這兩種技術(shù)具有通量低、操作復(fù)雜、不便于大規(guī)模樣品篩查的缺點(diǎn)。而高通量RNA測(cè)序技術(shù)(RNA-Seq)的出現(xiàn)大大加快了基因融合研究的進(jìn)展。RNA-Seq具有通量高、成本低、檢測(cè)精度高和檢測(cè)范圍廣的優(yōu)點(diǎn),其與全基因組測(cè)序相比,不僅能找到由于重排導(dǎo)致的基因融合,還能找到更多轉(zhuǎn)錄水平上的融合。
目前,已有一些通過RNA-Seq技術(shù)尋找基因融合的軟件,但是這些軟件或多或少存在各種不足,例如計(jì)算資源消耗嚴(yán)重,檢測(cè)率低,準(zhǔn)確度低等。為了克服這一系列問題,華大科技經(jīng)過深入研究,開發(fā)出一種新的算法—SOAPfuse。該算法首先通過比對(duì)到基因組和轉(zhuǎn)錄本中雙末端(pair end)關(guān)系的序列尋找候選的基因融合,然后采用局部窮舉算法和一系列精細(xì)的過濾策略,在盡量保留真實(shí)融合的情況下過濾掉其中假陽(yáng)性的基因融合。模擬數(shù)據(jù)和真實(shí)驗(yàn)證數(shù)據(jù)的綜合測(cè)評(píng)表明,SOAPfuse與其他方法相比具有更高的靈敏度和特異性,并且可以大大減少資源消耗。此外,該算法還具有融合斷點(diǎn)預(yù)測(cè)和可視化功能。這些功能能夠極大提高基因融合的檢測(cè)效率,大力推動(dòng)疾病尤其是腫瘤的研究,這對(duì)臨床分子分型和腫瘤新藥的開發(fā)具有重要意義。