【原】陳根：數(shù)據(jù)清洗機(jī)器人，MIT首發(fā)

陳根談科技 2021-05-19

展開全文

文/陳根

當(dāng)前，數(shù)據(jù)量的快速增長(zhǎng)已經(jīng)成為了IT管理部門所面對(duì)的最難于解決的問題之一。數(shù)據(jù)量的增長(zhǎng)嚴(yán)重降低了應(yīng)用程序的性能，降低了應(yīng)用程序的穩(wěn)定性，并且消耗了大量的投資，同時(shí)對(duì)備份與恢復(fù)也增加了巨大的負(fù)擔(dān)。

顯然，對(duì)于IT管理部門來(lái)說，不能永無(wú)止境的投入大量資金來(lái)升級(jí)系統(tǒng)存儲(chǔ)水平、提高服務(wù)器性能，以此來(lái)滿足不斷增長(zhǎng)的數(shù)據(jù)量。數(shù)據(jù)清理在這個(gè)時(shí)候就顯得尤為重要。

通過數(shù)據(jù)清理和數(shù)據(jù)歸檔的實(shí)施可以有效的提高數(shù)據(jù)庫(kù)性能，確保核心業(yè)務(wù)不會(huì)因?yàn)殚L(zhǎng)時(shí)間數(shù)據(jù)積累而出現(xiàn)性能問題，從而應(yīng)用可以更加迅捷地提供優(yōu)質(zhì)服務(wù)。當(dāng)然，數(shù)據(jù)清理技術(shù)也經(jīng)過了漫長(zhǎng)的發(fā)展且仍在研發(fā)之中。

根據(jù)Anaconda和Figure Eight進(jìn)行的調(diào)查，數(shù)據(jù)清理可能需要數(shù)據(jù)科學(xué)家四分之一的時(shí)間。并且，自動(dòng)化數(shù)據(jù)清理對(duì)于數(shù)據(jù)清理而言極具挑戰(zhàn)性——因?yàn)椴煌臄?shù)據(jù)集需要不同類型的清理，而且經(jīng)常需要對(duì)世界上的對(duì)象進(jìn)行常理性的判斷。

基于此，近日，麻省理工學(xué)院(MIT)的研究人員就稱，他們發(fā)明了一種新的系統(tǒng)，可以自動(dòng)清除“臟數(shù)據(jù)”(dirty data)——數(shù)據(jù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家害怕的打字錯(cuò)誤、重復(fù)、缺失值、拼寫錯(cuò)誤和不一致。

新系統(tǒng)被稱為PClean，是概率計(jì)算項(xiàng)目(Probabilistic Computing Project)研究人員編寫的針對(duì)特定領(lǐng)域的概率編程語(yǔ)言，旨在簡(jiǎn)化人工智能應(yīng)用程序的開發(fā)并實(shí)現(xiàn)自動(dòng)化，例如時(shí)間序列和數(shù)據(jù)庫(kù)進(jìn)行建模。

PClean使用一種基于知識(shí)的方法來(lái)自動(dòng)化數(shù)據(jù)清理過程：用戶對(duì)數(shù)據(jù)庫(kù)的背景知識(shí)以及可能出現(xiàn)的問題進(jìn)行編碼。用戶可以給PClean關(guān)于域和關(guān)于數(shù)據(jù)可能被破壞的背景知識(shí)。PClean通過常識(shí)概率推理結(jié)合這些知識(shí)來(lái)得出答案。

PClean是第一個(gè)貝葉斯數(shù)據(jù)清理系統(tǒng)，它可以結(jié)合領(lǐng)域?qū)I(yè)知識(shí)和常識(shí)性推理，自動(dòng)清理數(shù)據(jù)庫(kù)中的數(shù)百萬(wàn)條記錄。PClean工作所需的代碼行數(shù)要比其他最先進(jìn)的選擇少得多：PClean程序只需要大約50行代碼就可以在準(zhǔn)確性和運(yùn)行時(shí)方面超過基準(zhǔn)測(cè)試。

顯然，大數(shù)據(jù)時(shí)代里還需要更多數(shù)據(jù)清理技術(shù)的開發(fā)，這也將為未來(lái)大數(shù)據(jù)的發(fā)展提供更多的保證。