|
文/陳根 當(dāng)前,數(shù)據(jù)量的快速增長(zhǎng)已經(jīng)成為了IT管理部門所面對(duì)的最難于解決的問題之一。數(shù)據(jù)量的增長(zhǎng)嚴(yán)重降低了應(yīng)用程序的性能,降低了應(yīng)用程序的穩(wěn)定性,并且消耗了大量的投資,同時(shí)對(duì)備份與恢復(fù)也增加了巨大的負(fù)擔(dān)。 顯然,對(duì)于IT管理部門來(lái)說,不能永無(wú)止境的投入大量資金來(lái)升級(jí)系統(tǒng)存儲(chǔ)水平、提高服務(wù)器性能,以此來(lái)滿足不斷增長(zhǎng)的數(shù)據(jù)量。數(shù)據(jù)清理在這個(gè)時(shí)候就顯得尤為重要。 通過數(shù)據(jù)清理和數(shù)據(jù)歸檔的實(shí)施可以有效的提高數(shù)據(jù)庫(kù)性能,確保核心業(yè)務(wù)不會(huì)因?yàn)殚L(zhǎng)時(shí)間數(shù)據(jù)積累而出現(xiàn)性能問題,從而應(yīng)用可以更加迅捷地提供優(yōu)質(zhì)服務(wù)。當(dāng)然,數(shù)據(jù)清理技術(shù)也經(jīng)過了漫長(zhǎng)的發(fā)展且仍在研發(fā)之中。 ![]()
根據(jù)Anaconda和Figure Eight進(jìn)行的調(diào)查,數(shù)據(jù)清理可能需要數(shù)據(jù)科學(xué)家四分之一的時(shí)間。并且,自動(dòng)化數(shù)據(jù)清理對(duì)于數(shù)據(jù)清理而言極具挑戰(zhàn)性——因?yàn)椴煌臄?shù)據(jù)集需要不同類型的清理,而且經(jīng)常需要對(duì)世界上的對(duì)象進(jìn)行常理性的判斷。 基于此,近日,麻省理工學(xué)院(MIT)的研究人員就稱,他們發(fā)明了一種新的系統(tǒng),可以自動(dòng)清除“臟數(shù)據(jù)”(dirty data)——數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家害怕的打字錯(cuò)誤、重復(fù)、缺失值、拼寫錯(cuò)誤和不一致。 新系統(tǒng)被稱為PClean,是概率計(jì)算項(xiàng)目(Probabilistic Computing Project)研究人員編寫的針對(duì)特定領(lǐng)域的概率編程語(yǔ)言,旨在簡(jiǎn)化人工智能應(yīng)用程序的開發(fā)并實(shí)現(xiàn)自動(dòng)化,例如時(shí)間序列和數(shù)據(jù)庫(kù)進(jìn)行建模。 PClean使用一種基于知識(shí)的方法來(lái)自動(dòng)化數(shù)據(jù)清理過程:用戶對(duì)數(shù)據(jù)庫(kù)的背景知識(shí)以及可能出現(xiàn)的問題進(jìn)行編碼。用戶可以給PClean關(guān)于域和關(guān)于數(shù)據(jù)可能被破壞的背景知識(shí)。PClean通過常識(shí)概率推理結(jié)合這些知識(shí)來(lái)得出答案。 PClean是第一個(gè)貝葉斯數(shù)據(jù)清理系統(tǒng),它可以結(jié)合領(lǐng)域?qū)I(yè)知識(shí)和常識(shí)性推理,自動(dòng)清理數(shù)據(jù)庫(kù)中的數(shù)百萬(wàn)條記錄。PClean工作所需的代碼行數(shù)要比其他最先進(jìn)的選擇少得多:PClean程序只需要大約50行代碼就可以在準(zhǔn)確性和運(yùn)行時(shí)方面超過基準(zhǔn)測(cè)試。 顯然,大數(shù)據(jù)時(shí)代里還需要更多數(shù)據(jù)清理技術(shù)的開發(fā),這也將為未來(lái)大數(shù)據(jù)的發(fā)展提供更多的保證。 |
|
|