小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

華大醫(yī)學執(zhí)行總裁尹燁:基因大數(shù)據(jù)

 靈藏閣 2015-11-14


全世界已經(jīng)測序完成的高等動植物基因組大概有800個,華大貢獻了70%。

主講嘉賓:尹燁

尹燁:華大醫(yī)學執(zhí)行總裁。尹燁,1979年生,籍貫山東煙臺。2002年畢業(yè)于大連理工大學生物工程專業(yè)獲學士學位, 2013年獲華南理工大學生物工程(基因組學)工程碩士學位。2002年加入華大基因,先后從事體外診斷試劑研發(fā)、管理及基因組研究行業(yè),曾任華大科技總裁,華大集團首席運營官(COO),現(xiàn)任華大醫(yī)學總裁,率領(lǐng)團隊積極推動前沿生物醫(yī)學技術(shù)和基因組學研究成果的臨床應(yīng)用,降低出生缺陷及其他重大疾病對人類健康的危害。

以下為分享實景全文:

各位好,華大基因的尹燁?;蜻@個詞一直是我非常喜歡的詞,也是英文翻譯的最好的詞,gene-基因,基因基因,基本之因。

第一個話題,基因,基因組,大數(shù)據(jù)。對于目前我們已知的生物圈,碳鏈作為基本骨架的生命,我們都是通過DNA來進行遺傳的?;蚩梢院唵蔚睦斫獬梢欢斡幸饬x的DNA序列,而全部的DNA就成為一個物種的基因組。

地球誕生了46億年,最早的細胞化石是30億年,我們從簡單到復雜,從水生到陸生,從低等到高等,從無性到有性,從單細胞到多細胞……

我只能說部分同意進化論,但是關(guān)于生命的起源,的確是一個爭議很大的學科。

但分析現(xiàn)有的物種(包括部分滅絕的),從DNA的角度來看,的確有著極強的進化或演化關(guān)系,我們稱之為同源性。

最簡單的基因組來自于病毒,比如乙型肝炎病毒的DNA總量(基因組大?。┲挥?.2Kb.然后到了細菌,比如大腸桿菌,基因組就有4Mb,而到了酵母,也就是真菌就有了10Mb。他們的基因組不斷的插入外源DNA,越來越大,功能也越來越多。然后高等真菌已經(jīng)有30Mb-80Mb 的基因組了,到了最簡單的植物也只有100Mb左右的基因組,比如擬南芥。再向上,比如梅花200Mb,水稻400Mb,大豆1Gb,兩爬類2Gb,哺乳類3Gb。所以人類的基因組也就是3Gb,即30億個堿基。

然而還有更大的,比如辣椒在3G以上,而大麥要5G-6G,大蒜10G,小麥16G,銀杏20G……肺魚50G-100G。

基因組的大小與物種進化高低并無一致性,我們稱為C值悖論,或者說很多物種仍然是處于進化狀態(tài)的。全世界(范圍內(nèi)),我們基本的預估,所有生命信息只測一次的數(shù)據(jù)量是 10的60次方,然而現(xiàn)在只有10的21次方-22次方左右。以人類舉例,這個群體有70億數(shù)量,如果每人都測一次,則測序的數(shù)據(jù)量至少就是3Gb*70億這么大。且受到技術(shù)和方法學限制,目前每一個人至少要測100G(大約是基因組的30倍),才能得到相對準確的全基因組信息,所以剛才的數(shù)量就達到了100G*70億人次這么大。

水稻,玉米,小麥……這些都要育種,每一個也都需要按照這樣的方式來做,所以這個數(shù)據(jù)量就變得無可估量了?,F(xiàn)在是從每個物種只測一次的角度來講,而對于活著的生命體,還需要測很多次,比如每個人睡覺、吃飯、思考、生病的基因表達都不一樣,這個數(shù)據(jù)量還會有數(shù)量級的增加。


存活不到“一秒”的人類個體有多大數(shù)據(jù)?這里說的一秒是指把生命出現(xiàn)到現(xiàn)在當作一年時間來看。

所以你會發(fā)現(xiàn),原來我們還有基因組萬倍的細胞,還有十萬倍的菌群。這些如果都測出來,那是不得了的數(shù)據(jù)量。


我們計算過,一個人如果從出生下來就開始取樣,生化、免疫、影像、基因,表型數(shù)據(jù),如果都開始積累,那么一起步就是665個G,一輩子差不多就到了1個P。如果一個人1P,1000人就是1E,1M(Million)人就是1Y,1B(Billion)人就是1個Z,這就是10的24次方。這個數(shù)據(jù)還只是人類,如果把上千萬個物種,都這樣來一下,那么可能就達到了N或者D的級別。


大家看這個,如果說20世紀是物理學世紀的話,那么21世紀毫無疑問的就是生命的世紀。物理在有了熱力學三大定律特別是熵的概念提出后,開始進入快速發(fā)展階段。生命科學至今還沒有一個可以用數(shù)學語言可以闡述的定律。


看下這張,生命科學從1859年物種起源來看,不過就是150年的時間?;蛞彩?911年才出現(xiàn)的提法。迄今為止,全世界已經(jīng)測序完成的高等動植物基因組大概有800個,華大貢獻了70%。

基因數(shù)據(jù)這對于這個行業(yè)來講就是巨大的油田。

一個行業(yè)如果要興起,需要經(jīng)過科學發(fā)現(xiàn),技術(shù)發(fā)明,再到產(chǎn)業(yè)發(fā)展。比如富蘭克林發(fā)現(xiàn)了電,愛迪生發(fā)明了電燈,而GE把照明做到了全世界。制造業(yè)包括IT,一般可以直接從發(fā)明到發(fā)展,所有學科里面唯獨生命不行。這是因為,生命科學直接作用于人體,即使你知道了青蒿素可以治療瘧疾,但一定要從機理上證明,即回歸發(fā)現(xiàn),才可以允許你做產(chǎn)業(yè)發(fā)展。而生命的科學發(fā)現(xiàn),必須依賴于大數(shù)據(jù),重視相關(guān)關(guān)系,而不是因果關(guān)系。

美國在1980年啟動了腫瘤大戰(zhàn),希望通過蛋白等片段的信息來搞清楚腫瘤,十年后發(fā)現(xiàn)失敗。所以在1990年正式啟動了人類基因組,不去搞明白為什么,而是先把whole picture搞定,即解決是什么的問題。

這就是基因組的起源和生命科學的大發(fā)展。一次核磁從幾十個G到幾百個G都有,看分辨率。

下面進入今天最后一個問題,生物大數(shù)據(jù)到底能做什么。先說育種。相當程度上,我們現(xiàn)在可以不通過種地,而直接通過運算的方式來進行虛擬育種。


大家可以對比一下。

按目前的算法推測,如果做到相關(guān)性90%,對于玉米(基因組大小是2.5Gb),10000株玉米就可能讓天河一號全年計算能力飽和。目前最快的測序儀,每一秒的數(shù)據(jù)產(chǎn)出會達到幾十個G,除了用裸光纖,根本沒法解決傳輸問題。如果個人基因組得到普及,以100萬人的數(shù)據(jù)庫如果要進行兩兩比較,那么天河二號也遠遠不夠。這就是生命大數(shù)據(jù)帶來的計算,存儲,傳輸?shù)奶魬?zhàn),瓶頸在IT。再來講生命科學的應(yīng)用,比如腫瘤,大家應(yīng)該知道,腫瘤本身不是均質(zhì)的,即不是簡單的區(qū)分為癌癥組織和癌旁組織,腫瘤的生長過程本身就是一個動態(tài)的進化過程,說的通俗點,最早的腫瘤細胞逃脫了細胞周期,戰(zhàn)勝了普通細胞,然后搶到了離血管近的位置,開始快速繁殖,逐漸地,遠離血管的就打不過離血管近的了,所以要進一步進化成更“厲害”的癌細胞。所以,所以腫瘤靶向藥物,如果是直接針對的勻漿狀態(tài)的,那很可能是無效的。我們發(fā)過幾篇高水平文章都是關(guān)于單細胞測序的--即我們挑選腫瘤組織中的上百個細胞,一個一個測基因組,然后看他們基因組的進化關(guān)系,從而正確判斷出這些癌細胞的出場順序,知道了正在起作用的基因。這個時候的有的放矢就變得很重要了。


在生命科學里,很多是數(shù)十個甚至數(shù)千個客觀規(guī)律在同時作用,所以因果關(guān)系本身說不清。

比如血糖和糖尿病真的有必然關(guān)系么?在科學上,我們這個領(lǐng)域用相關(guān)關(guān)系的很多,比如GWAS,全基因組關(guān)聯(lián)分析就是最典型的例子。但是只看靜態(tài)是不對的。正如看見影片中一個人手里拿著刀,是無法判斷他是否殺人的。

我們不能憑借image來說事,而要靠video.所以未來的健康領(lǐng)域,一定是綜合了基因,環(huán)境,運動,營養(yǎng),菌群,睡眠,心理共同作用的結(jié)果。在這個基礎(chǔ)上,會產(chǎn)生全新的行業(yè),即所謂的真正意義上的健康咨詢師,目前的遺傳咨詢也只能解決20%或者更少的問題。比如精子,每次射精有50億個左右,但任意兩個精子的DNA都不一樣,這就是進化或演化的根本。

最后一個例子說說菌群,每一個人100斤的人有4斤的細菌。


通常認為的菌群是我截圖這張,但實際上腫瘤有上千種,但豐度譜是不同的,所以依次可以區(qū)分腸道菌群分型,我們稱之為“腸型”。這些菌很大程度上決定了你的吸收,可以簡單的理解為,它們的次生代謝產(chǎn)物才是我們吸收的營養(yǎng)。我們曾經(jīng)測過歐洲亞洲不同食譜的人群菌群,在健康的時候是不一致的,但比如罹患了大腸癌,則菌群的多樣性下降,到晚期趨同性更有一致的趨勢。所以現(xiàn)在通過測糞便就可以分別相當多的疾病狀態(tài),包括大腸癌,包括糖尿病,甚至抑郁和很多精神性疾病,都和菌群釋放的內(nèi)毒素有關(guān)。


這是華大CEO王俊提出的第一定律。表型組和基因組通過某種環(huán)境條件起作用。我們希望能夠發(fā)現(xiàn)部分數(shù)學定律來闡述。


最后一張片子,生命周期表,里面給出了從174噬菌體開始發(fā)表的所有頂尖的物種文章。我們希望能夠找到生命周期表。

以此結(jié)束 A citation from,“Genetics and the Origin of Species” (1973) T. Dobzhansky (1900-1975) “Nothingin biology makes sense, except in the light of evolution. Without that light itbecomes a pile of sundry facts - some of them interesting or curious but makingno meaningful picture as a whole”。

互動內(nèi)容:

施建旭:這么多計算資源和數(shù)據(jù)都找不出規(guī)律,還說瓶頸在

尹燁:@施建旭 我們已經(jīng)發(fā)現(xiàn)了很多規(guī)律,但是更多的規(guī)律不是今天的計算資源能夠滿足的。另外說一句,我們是民企,所有資源都是我們自己的產(chǎn)業(yè)利潤納稅后支撐的。

花甲青年:@尹燁 新的品種可以計算出來,而并非經(jīng)過年復一年的種植培育出來?有關(guān)系嗎?

尹燁:@花甲青年 虛擬育種的概念 是和蓋茨基金會合作中一起討論出來的方向。現(xiàn)在通過對大量物種的重測序,我們可以瞬間知道很多基因的功能,然后利用矢量計算的算法可以對每一個基因每一個堿基加權(quán),來預測后代可能的狀態(tài)。當然,這里面有一些限制,比如環(huán)境要控制的相對穩(wěn)定。

尹燁:所以 現(xiàn)在通過測糞便就可以分別相當多的疾病狀態(tài),包括大腸癌,包括糖尿病,甚至抑郁和很多精神性疾病,都和菌群釋放的內(nèi)毒素有關(guān)。

濬:@尹燁 細菌平衡才是王道,多樣性才是穩(wěn)定性基礎(chǔ)。

尹燁:@harry 濬 肝癌、大腸癌有關(guān)系,認可,或者說,現(xiàn)在以器官來命名癌癥out了,EGFR癌,RAS癌……@張涵誠 @harry 濬 對于生態(tài)系統(tǒng),多樣性是穩(wěn)定的基礎(chǔ);對于內(nèi)環(huán)境,要看怎么理解。比如血液,只有紅細胞、白細胞、血小板,不能太多樣,不然就毒血或者膿血或者菌血了。但是換一個角度,如果血液中只有紅細胞、白細胞、血小板的情況下,那么他們的免疫細胞是兵強馬壯的,這也可以理解為穩(wěn)定。

楊力偉:@尹燁 多樣性是穩(wěn)定性的基礎(chǔ),在生物中適用,在社會中也適用。

尹燁:@楊力偉, 修行、冥想、打坐、樂觀積極的心理狀態(tài)能夠影響生理指標,這些心理狀態(tài)都會直接影響基因表達,有物質(zhì)基礎(chǔ)。

:請問:進化論在多大程度上是正確的?

尹燁:@Bright Star 我部分認可進化論,包括拉馬克的用盡廢退在特定條件下也是有道理的,但對于目前的生命起源學說比較不認可。

郝鵬洲:@尹燁尹總有幾個問題,1.去年11月我去過美國國立研究院,專門做大數(shù)據(jù)關(guān)于基因的話題,目前國際千人基因計劃進展如何。2.拜訪了幾位專家,未來人類基因測序?qū)⒑统檠粯?,目前成本是否仍然很高?/p>

尹燁:@郝鵬洲 前幾期基本做完了,結(jié)果符合預期,現(xiàn)在各個國家都在爭做1M基因組。測序會便宜到和高端體檢差不多,但是解讀很難。

張涵誠:是否只有上帝掌握大數(shù)據(jù),我們?nèi)祟惪梢哉J識自己嗎?

尹燁:已知圈子越大,未知圈子更大,人類不可能徹底研究明白人類或者任何物種。

張涵誠:是否基因這個提法本身就有問題?或者有其他的表達我們身體的方式?

尹燁:基因只是其中的一個最有代表性的指標,包括蛋白,小分子,細胞、組織,系統(tǒng)都是生命的“通貨”;

張涵誠:物種對于環(huán)境的的改變是不是微不足道?

尹燁:實際上是非常大,特別是人本主義的破壞。

張涵誠:生命的描述維度有多少?目前華大有什么新的思路?

尹燁:至少有長,寬,高,數(shù)量,時間、溫度、速度,我們在努力的方向是全時全景的生命全信息;

張涵誠:華大提供什么普惠的項目?

尹燁:宮頸癌篩查,耳聾基因篩查,地中海貧血檢測等都是我們現(xiàn)在做的公共衛(wèi)生項目。

花甲青年:@尹燁 有了育種大數(shù)據(jù)和超級計算,以后人類吃飯不用愁了,這是大數(shù)據(jù)的人類的第一大貢獻!謝謝你的報告!

尹燁:@花甲青年 謝謝鼓勵,我們叫做基因組指導下的定向聚合育種,我們做的雜交谷子去年最高的試驗田畝產(chǎn)達到了950 kg。

金耀星:請問:人一生的記憶,大約是多大數(shù)據(jù)量,可以測嗎?

尹燁:這個很難講,如果神經(jīng)元的結(jié)合方式我們能解決的話,我相信會有很大的突破?,F(xiàn)在來看差不多就是G級別的。

曾經(jīng)的小盧:@尹燁 剛才你說的計算能力不是問題,存儲是更大挑戰(zhàn),請問如何用DNA做如此大量數(shù)據(jù)的存儲呢?

尹燁:@曾經(jīng)的小盧 合成生物學,用0101的底層編碼引導合成。只要你0101能存,我ATCG就能存。舉一個最簡單的例子,大腸桿菌,4M的基因組,可能在十幾分鐘就合成完畢了。如果我可以用1P的大腸桿菌定向做存儲,不就很快解決了一個Y的存儲了么?A——腺嘌呤 T——胸腺嘧啶 C——胞嘧啶G——鳥嘌呤,堿基,就是化學物質(zhì)。比如A,就是HCN 氰化氫的五聚體,也是所謂的海洋起源的重要標志之一。

楊力偉:基因的因果關(guān)系你怎么判定呢?

尹燁:@楊力偉 現(xiàn)在的通用做法就是轉(zhuǎn)基因?qū)嶒?,比如敲除這個基因,看功能變化。

曾經(jīng)的小盧:可以認為這是一種4進制計算嗎?

尹燁:@曾經(jīng)的小盧 它不存在“進”的概念,還有先后順序,還有更多的奇怪規(guī)矩,比如AAAA這樣不能連續(xù)太多次。

曾經(jīng)的小盧:這還是四進制了啊,你的計算單元已經(jīng)是4種了啊

尹燁:本質(zhì)上還是二進制,00,01,10,11。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多