|
來自宇宙的數(shù)據(jù)洪流Comments>> Shea 發(fā)表于 2014-06-06 14:21 | Tags 標(biāo)簽:原創(chuàng), 大數(shù)據(jù), 巡天, 數(shù)字巡天, 譯文 Preston Lerner 文 Shea 編譯 數(shù)字巡天和實(shí)時(shí)望遠(yuǎn)鏡觀測正在引發(fā)一場前所未有的數(shù)據(jù)洪水。埋藏在這些數(shù)據(jù)中的可能有宇宙學(xué)中最大謎題的答案。 對于工作在美國宇航局(NASA)國家空間科學(xué)數(shù)據(jù)中心的科學(xué)家來說,一場信息革命從2000年起便悄然而至。在一個(gè)會(huì)議上,有一位天文學(xué)家詢問,這個(gè)中心是否能放下由暈族大質(zhì)量致密天體巡天——專門用來研究僅發(fā)出少量光線和其他輻射的神秘天體——所收集的1萬億字節(jié)的數(shù)據(jù)。雖然今天許多臺(tái)式計(jì)算機(jī)的硬盤就能放下1萬億字節(jié)的數(shù)據(jù),但對于當(dāng)時(shí)的這個(gè)數(shù)據(jù)中心來說卻是不可能的,因?yàn)樵诖酥暗?5年中NASA所收集的數(shù)據(jù)總量也只有1萬億字節(jié)。 [圖片說明]:斯隆數(shù)字巡天的2.4米望遠(yuǎn)鏡。版權(quán):SDSS。 一個(gè)實(shí)驗(yàn)所產(chǎn)生的數(shù)據(jù)就相當(dāng)于之前15,000個(gè)實(shí)驗(yàn)的總和。于是有人意識(shí)到,科學(xué)界必須要做點(diǎn)什么,不但把使所有這些數(shù)據(jù)提供給科學(xué)家,而且還要能從所有這些信息中做出科學(xué)發(fā)現(xiàn)。 在隨后的十年中,天文學(xué)家所使用的工具發(fā)生了徹底的變化,而我們對宇宙的認(rèn)知也跟著發(fā)生了翻天覆地的改變。用照相底片來辛苦地拍攝天空的日子已經(jīng)一去不復(fù)返。今天地球上和太空中的天文臺(tái)可以讓天文學(xué)家從射電波到γ射線縱覽整個(gè)宇宙。而隨著數(shù)字化探測設(shè)備的發(fā)展,計(jì)算機(jī)取代了原先的暗室。這些新生力量為了解我們的宇宙提供了一條更有意義的途徑,但它們同時(shí)也引發(fā)了一場駭人的數(shù)據(jù)洪災(zāi)。驚人的發(fā)現(xiàn)也許就在其中,但你必須要先梳理所有的數(shù)據(jù)。 從2000年起,耗資8,500萬美元的斯隆數(shù)字巡天(SDSS)已經(jīng)拍攝了超過三分之一的夜空,獲得了超過930,000個(gè)星系和120,000個(gè)類星體的信息。對SDSS龐大數(shù)據(jù)的計(jì)算分析發(fā)現(xiàn)了一些已知最年老天體的證據(jù)、確定了絕大多數(shù)大型星系擁有超大質(zhì)量黑洞、甚至還測定出了局部宇宙的三維結(jié)構(gòu)。在SDSS之前,單個(gè)天文學(xué)家或者小組占據(jù)了天文學(xué)。你要申請望遠(yuǎn)鏡的使用時(shí)間,獲得你的數(shù)據(jù),然后再對其進(jìn)行分析。之后SDSS問世了,突然間有了為了某個(gè)目的而獲得的大量數(shù)據(jù),但人們卻把它們用到了其他各自感興趣的研究上。因此,天文學(xué)的研究方式出現(xiàn)了巨大的改變,即便不屬于某個(gè)項(xiàng)目的天文學(xué)家也能提出全新的問題、做出嶄新的發(fā)現(xiàn)。 SDSS:宇宙制圖家 斯隆數(shù)字巡天(SDSS)始于2000年,昭示著海量數(shù)據(jù)天文學(xué)時(shí)代的到來。多年來,對于需要了解宇宙全局特征的天文學(xué)家來說,他們主要依靠的是20世紀(jì)50年代的帕洛瑪照相天圖。SDSS也觀測了帕洛瑪天圖中的大量區(qū)域,但卻把之前的照相底片換成了可以在任何地方更新和分析的數(shù)字圖像。SDSS的科學(xué)家由此做出了一些驚人的發(fā)現(xiàn)。2000年,他們發(fā)現(xiàn)了已知最遙遠(yuǎn)的類星體。而獨(dú)立于SDSS之外的科學(xué)家卻根據(jù)它的數(shù)據(jù)已經(jīng)發(fā)表了2,000多篇的科學(xué)論文,把SDSS的公開數(shù)據(jù)作為了他們研究的基礎(chǔ)。另一個(gè)生動(dòng)的例子是,天文學(xué)家由SDSS發(fā)現(xiàn)了“星流場”,這一群恒星分布的跨度長達(dá)近四分之一個(gè)天空。它們可能是小型星系被銀河系吞噬時(shí)所產(chǎn)生的殘骸。 [圖片說明]:斯隆數(shù)字巡天對天空的覆蓋情況以及對其中某一塊逐步放大的圖像。版權(quán):SDSS。 在這其中,數(shù)據(jù)挖掘和其他信息學(xué)工具對于從基本的亮度測量中提取有用的信息進(jìn)而得出新的科學(xué)結(jié)果起到了至關(guān)重要的作用。 新一代的巡天將會(huì)觀測并記錄下數(shù)百億個(gè)的天體。但問題是,在已知的宇宙中沒有那么多的研究生能對它們進(jìn)行分類。2019年當(dāng)大口徑全天巡視望遠(yuǎn)鏡(LSST)在智利帕瓊山上將其32億像素的數(shù)碼相機(jī)(世界上最大)對準(zhǔn)天空的時(shí)候,它會(huì)以15秒的曝光時(shí)間拍攝一片比滿月大49倍的天區(qū),一個(gè)晚上拍攝2,000次。在其后10年中所拍攝的這些快照最終會(huì)被串編起來,構(gòu)成一部可見天空的電影。每晚可以生成30萬億字節(jié)數(shù)據(jù)的LSST將會(huì)成為千萬億字節(jié)天文學(xué)的核心。 洪水般的數(shù)據(jù)已經(jīng)令過去為獲得大型天文臺(tái)那么一丁點(diǎn)觀測時(shí)間就激烈競爭的天文學(xué)家們感到了勢不可擋。有史以來第一次天文學(xué)家們不再能夠檢查并使用所有的數(shù)據(jù)。這不僅僅在于數(shù)據(jù)的數(shù)量,還關(guān)乎數(shù)據(jù)的質(zhì)量和復(fù)雜性。一個(gè)大型巡天可能會(huì)觀測數(shù)百萬甚至數(shù)十億個(gè)天體,而對每一個(gè)天體可能又會(huì)測量它的數(shù)千個(gè)特性。雖然有現(xiàn)成的數(shù)據(jù)挖掘程序包,但如果你想處理10億個(gè)對象而每個(gè)對象又包含1,000個(gè)數(shù)據(jù)的時(shí)候,就算有世界上最大的超級(jí)計(jì)算機(jī)你也只能干瞪眼。其挑戰(zhàn)是發(fā)展出適用于21世紀(jì)的新科學(xué)方法。 宇宙攝像機(jī) 建在智利帕瓊山上的大口徑全天巡視望遠(yuǎn)鏡(LSST)是一個(gè)價(jià)值4.5億美元的龐大工程,它將真正把天文學(xué)和信息學(xué)揉合在一起。它的目標(biāo)是探測暗能量和暗物質(zhì)、對太陽系和銀河系進(jìn)行前所未有的詳盡普查并且尋找天空中任何會(huì)變化或者移動(dòng)的目標(biāo)。 [圖片說明]:建在智利帕瓊山上的大口徑全天巡視望遠(yuǎn)鏡。版權(quán):Michael Mullen Design/LSST Corporation。 裝備有一面8.4米的主鏡和一架世界上最大的32億像素的照相機(jī),LSST只要幾個(gè)晚上就能獲得和SDSS在8年的時(shí)間里所得到的一樣多的數(shù)據(jù)。據(jù)估計(jì)LSST總共會(huì)觀測到200億個(gè)左右的目標(biāo),這將是第一次有一個(gè)巡天能觀測到比地球上的人口還要多的天體。 如此龐大而驚人的數(shù)字使得LSST也成為第一個(gè)把信息學(xué)融入其設(shè)計(jì)的天文項(xiàng)目,其中涉及到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、可視化研究以及除了天文學(xué)家之外的計(jì)算機(jī)科學(xué)家和統(tǒng)計(jì)學(xué)家。LSST會(huì)一絲不茍地對整個(gè)可見天空進(jìn)行成像,最終會(huì)生成一部10年長的宇宙電影。這將導(dǎo)致研究天體快速變化現(xiàn)象——黑洞形成、超新星爆發(fā)——的時(shí)間域天文學(xué)和對地球構(gòu)成潛在威脅的小行星以及位于海王星軌道之外的柯伊伯帶天體的搜尋向前邁進(jìn)一大步。 這一方法的核心是被稱為信息學(xué)的大批量數(shù)據(jù)處理技術(shù)。它已經(jīng)改變了生物學(xué)和醫(yī)學(xué),使得科學(xué)家可以對數(shù)千種生物的脫氧核糖核酸(DNA)進(jìn)行測序并尋找出與健康和疾病有關(guān)的基因線索。天文學(xué)家相信信息學(xué)也能為他們做同樣的事情。基本的想法是用計(jì)算機(jī)來從過于復(fù)雜而人腦無法理解的原始數(shù)據(jù)中提取出有意義的信息。軟件可以在幾秒鐘的時(shí)間里處理數(shù)萬億字節(jié)的數(shù)據(jù),找出其中的規(guī)律和異常,對關(guān)鍵信息進(jìn)行可視化,甚至在這個(gè)過程中“自我學(xué)習(xí)”。 從這個(gè)意義上講,信息學(xué)其實(shí)就是讓天文學(xué)家能更快、更準(zhǔn)確地去完成他們一直在從事的工作。例如,對于這天文學(xué)中的兩大關(guān)鍵技術(shù)——分類和整合信息——而言,數(shù)據(jù)挖掘是有益的。這個(gè)天體是一顆恒星還是一個(gè)星系?如果它是一個(gè)星系,那它是旋渦星系還是橢圓星系?如果是橢圓星系,它是圓的還是扁的?就在不久之前,這些問題還是處理照相底片的人必須要回答的。當(dāng)你手中只有數(shù)百個(gè)太陽系外行星或者數(shù)千顆超新星的時(shí)候,分類不是什么大不了的事情。但當(dāng)你面對數(shù)十億個(gè)天體的時(shí)候,它就會(huì)變得極其復(fù)雜而繁重。 1996年天文學(xué)家為了了解遙遠(yuǎn)宇宙中的大尺度結(jié)構(gòu)試圖證認(rèn)出幾百個(gè)類星體。當(dāng)時(shí)的做法很原始,一只鉛筆和一張紙,還有反復(fù)地試驗(yàn)。而當(dāng)LSST完工的時(shí)候,它輕而易舉地就能給我們收集到以數(shù)百萬計(jì)的類星體。 [圖片說明]:大口徑全天巡視望遠(yuǎn)鏡焦平面的實(shí)際大小模型,其直徑達(dá)64厘米。請注意其中由于比較視場大小的月球(直徑0.5度)。版權(quán):LSST Corporation。 針對大樣本的算法不僅能更容易地發(fā)現(xiàn)規(guī)律,還能加速識(shí)別出異?,F(xiàn)象。現(xiàn)在,一百萬分之一被認(rèn)為是實(shí)屬意外的發(fā)現(xiàn),你恰好在正確的時(shí)間把望遠(yuǎn)鏡對準(zhǔn)了正確的方向。這是搜尋高紅移類星體——由超大質(zhì)量黑洞所驅(qū)動(dòng)的極為遙遠(yuǎn)而明亮的天體——中經(jīng)常發(fā)生的現(xiàn)象。目前尋找它們基本是靠運(yùn)氣的事情。有了計(jì)算機(jī)來篩選數(shù)十億個(gè)天體,天文學(xué)家能夠更具方法性地來尋找這些天體以及其他不同尋常的目標(biāo)。這一方法不僅更快而且更準(zhǔn)確。 另一方面,信息學(xué)也是進(jìn)行統(tǒng)計(jì)的有力工具,它可以反映出宇宙整體的圖像。例如,傳統(tǒng)上天文學(xué)家會(huì)利用分光儀來估計(jì)遙遠(yuǎn)星系的距離,后者會(huì)把一個(gè)天體所發(fā)出的光分解到不同的波長上。但對于SDSS中每一個(gè)具有光譜數(shù)據(jù)的天體,又有大約100個(gè)沒有光譜而只有圖像的天體與之對應(yīng)。這里就是天文信息學(xué)派上用場的地方了。天文學(xué)家們開發(fā)出了一個(gè)算法,它可以讓天文學(xué)家僅分析圖像就能估計(jì)出天體的距離,為研究宇宙的三維結(jié)構(gòu)提供了大得多的數(shù)據(jù)集。這對于LSST尤為重要,因?yàn)樘煳膶W(xué)家無法獲得其中99%天體的光譜。 望遠(yuǎn)鏡無國界 為了盡可能多得了解遙遠(yuǎn)的天體,天文學(xué)家會(huì)在不同的波段上對它們進(jìn)行觀測。不幸的是,由此產(chǎn)生的數(shù)據(jù)通常都存放在全世界的各個(gè)地方,這使得它們變得很難獲取。此外,它們中的絕大部分并不兼容,因此把它們合并到一起需要花費(fèi)大量的辛苦勞動(dòng)。大約10年前,一群天文學(xué)家開始討論建立一個(gè)全球統(tǒng)一的虛擬天文臺(tái)。就像互聯(lián)網(wǎng),這個(gè)虛擬的天文臺(tái)是一個(gè)超乎實(shí)體的框架,它將眾多望遠(yuǎn)鏡的數(shù)據(jù)資料連接了起來并為之提供了研究工具。在美國,一個(gè)試驗(yàn)性的虛擬天文臺(tái)——美國國家虛擬天文臺(tái)——于2002年上線,但由于缺乏好的數(shù)據(jù)分析工具而難以使用。2010年5月NASA和美國國家科學(xué)基金會(huì)決定在未來5年為虛擬天文臺(tái)注資2,750萬美元并繼續(xù)開發(fā)數(shù)據(jù)共享工具,這使得虛擬天文學(xué)的前景再一次變得誘人。 虛擬天文臺(tái)本身不會(huì)取得突破,但它卻會(huì)讓新的突破成為可能。這就像互聯(lián)網(wǎng)改變了世界,而造就它的是超文本傳輸協(xié)議(HTTP)一樣。 計(jì)算機(jī)科學(xué)和天文學(xué)間跨學(xué)科的聯(lián)姻還沒有得到各自領(lǐng)域的完全擁護(hù),不過情況正在發(fā)生改變。2010年5月初次登臺(tái)的虛擬天文臺(tái)是一個(gè)分水嶺。這個(gè)歷經(jīng)10年時(shí)間打造的國際網(wǎng)絡(luò)使得天文學(xué)家能通過互聯(lián)網(wǎng)獲得來自幾十架望遠(yuǎn)鏡的數(shù)據(jù)。之后,在2010年6月又召開了首次國際天文信息學(xué)會(huì)議。 天文學(xué)家習(xí)慣于行走在人類想象力的極限,但即便是他們也會(huì)在從如洪水般涌來的新數(shù)據(jù)中提煉出新的認(rèn)識(shí)時(shí)遇到尷尬。路已經(jīng)修好,現(xiàn)在就要看法拉利的了。
|
|
|