|
15年前,科學家宣布,人類基因組圖譜繪制完成。但我很遺憾地告訴各位,這不是事實。 如果你曾被誤導,那是因為長期以來,很多科學家自身也忽視了人類DNA中最后幾個未組裝的區(qū)域,它們主要由看起來不像基因的短回文重復序列組成。 “這片巨大的空白仍然存在?!奔又荽髮W圣克魯茲分校的基因組研究員卡倫·米加(Karen Miga)說。之所以如此,是因為科學家無法對DNA的這些重復序列進行測序和組裝——但現(xiàn)在,情況發(fā)生了變化。 在一項里程碑式的研究中,米加和同事們發(fā)現(xiàn)了Y染色體著絲粒的完整序列,它包含30萬個字符。對于Y染色體著絲粒這種奇怪的結(jié)構(gòu),人們對它的了解曾經(jīng)十分有限。 你也許想不到,既然著絲粒序列如此重要,可科學家竟然從未組裝過著絲粒序列。染色體是緊湊的DNA結(jié)構(gòu),而著絲粒是染色體上的一個特殊區(qū)域。細胞分裂時,絲狀蛋白附著于著絲粒,使染色體分離。如果著絲粒功能異常,細胞的染色體就會過少,或者過多,唐氏綜合征就是如此。著絲粒功能異常也與癌癥等疾病有關。 “每個染色體的這個區(qū)域都有著至關重要的作用。”杜克大學分子生物學家貝絲·沙利文(Beth Sullivan)說,“你肯定以為我們對著絲粒已經(jīng)了如指掌了?!鄙忱臎]有參與上述研究。 然而,著絲粒很難破解。它們含有相似甚至完全相同的序列,這些序列可能達到170個字符長度,重復數(shù)百或者數(shù)千次。傳統(tǒng)的測序儀把一串DNA分成多個“可讀”的短片段,然后像拼圖一樣組裝起來。 “破解著絲粒的困難之處就在于,所有片段看起來都是一樣的。這就像在拼撒哈拉沙漠的拼圖?!鄙忱恼f。研究基因的生物學家能夠受益于大量的基因序列信息,但研究著絲粒的生物學家,卻基本沒有序列信息可供研究。 現(xiàn)在,我們有了納米孔測序,這項新技術能讀取更長的DNA片段。米加和同事們決定用這項技術來破解著絲粒。盡管納米孔測序仍然無法一次性破解Y染色體著絲粒的數(shù)十萬個字符,但可以提供更少、更大的拼圖塊,大幅降低了序列組裝的難度。 米加團隊測序并組裝的Y染色體著絲粒來自于美國紐約州布法羅市的一位匿名男性,他的DNA曾被用于人類基因組計劃的大多數(shù)項目。這個著絲粒的序列并沒有太多令人意外的地方。這是好事,因為這意味著納米孔測序(一項仍然相對較新的技術)沒有產(chǎn)生錯誤,從而為今后更多的著絲粒測序打開了大門?!霸谖铱磥?,這只是以后開展研究的基礎?!泵准诱f。 對某一個著絲粒進行測序,這只是一次技術上的探索,對大量著絲粒進行測序,才會產(chǎn)生真正令人感興趣的東西。例如,一直以來,Y染色體都被用于研究人類遷徙歷史和遺傳變異。而著絲粒提供了更多的數(shù)據(jù),因為它們千差萬別:不僅重復序列的字符不同,而且人與人之間同一染色體上的著絲粒序列長度,也能相差20倍之多?!叭绻阆胗^察人類遺傳變異,我覺得這就是你應該研究的地方。”弗雷德·哈欽森癌癥研究中心的著絲粒研究員史蒂夫·亨尼科夫(Steve Henikoff)說。他把這項新研究稱為著絲粒研究領域的“里程碑”。 科學家也想研究其他染色體的著絲粒。米加之所以從Y染色體入手,只是因為這是最簡單的。Y染色體的著絲粒序列長度只有幾十萬個字符,而沙利文研究的17號染色體,其著絲粒序列長度多達400萬個字符。17號染色體異常與乳腺癌等多種疾病有關。如果科學家可以對很長的著絲粒進行完整測序,也許就能弄明白細微變化(比如序列中的小錯誤或者重復的順序)會如何影響著絲粒功能。 而破解這些更長的著絲粒將更加困難。諾丁漢大學生物學家馬修·盧斯(Matthew Loose)最近領導了一個項目,利用納米孔技術對人類基因組(不包括著絲粒)進行測序。他說,在“不久的將來”,獲得更完整的基因組序列,將不再是一件難事。 染色體不只是有著絲粒。例如,異染色質(zhì)占到了Y染色體的很大一部分,這是另一個DNA高度重復的區(qū)域。“Y染色體就是這么難對付?!泵准诱f。 依靠納米孔測序技術,科學家開始填補空白——距離真正完整的人類基因組序列,我們越來越近了。 翻譯:于波 校對:其奇 編輯:穎仔 來源:The Atlantic |
|
|