|
我們經(jīng)常會遇到另一種類型的分類數(shù)據(jù),“數(shù)值類型的ID”,例如, 這里的ID就是數(shù)值類型的。這樣的ID有一個問題,就是你很可能會將ID這一列設(shè)置為常規(guī)或者數(shù)值類型。 然后就會遇到一些問題。 比如,公司的系統(tǒng)升級,原有的5位ID不夠用了,現(xiàn)在改用9位ID了。新的ID是這樣的形式, 但是對于系統(tǒng)中已有的ID,采取的措施是前面補0,所以系統(tǒng)中的ID是這樣的形式, 但是,我們在別的數(shù)據(jù)源中也有類似的情況,比如在某個文本文件中,也有很多數(shù)據(jù), 我們通過復(fù)制/粘貼,或者直接用Excel打開文本文件的方式,將這些數(shù)據(jù)導(dǎo)入到Excel表格中, 你會發(fā)現(xiàn),這些數(shù)據(jù)的ID被變成了數(shù)值,而前面的四個0也被去掉了。這樣,就造成了同一個ID在表格中出現(xiàn)了多個不同的版本,當(dāng)我們用ID進(jìn)行分類統(tǒng)計時,就會造成分類不一致的問題。 一個錯誤的處理方法 很多人遇到這種情況,會采用一種處理方法:“自定義格式”。 選中ID列,按Ctrl+1打開格式對話框,在自定義格式中輸入“000000000”, 點擊確定后,結(jié)果如下, 除了對齊方式外,看上去沒有問題了。 但是這是錯誤的。我們以第一個ID和第四個ID為例,看上去都是“000010110”,但是通過LEN函數(shù)判斷一下長度, 我們發(fā)現(xiàn),它們的長度不同。盡管第四個ID看上去是“000010110”,但是前面的四個0是顯示格式里設(shè)置的,并不是真正存在的。 這樣在統(tǒng)計時就會出現(xiàn)兩個ID, 所以,不建議使用自定義格式的方法處理這種情形。
正確的處理方法 可以采用下面的方法來進(jìn)行數(shù)據(jù)清洗工作。 首先,添加一個輔助列,
在其中輸入公式: =TEXT(B3,"00000000")
填充到整列,
復(fù)制,然后在ID列中粘貼成數(shù)值,
得到結(jié)果,
刪掉輔助列和長度列即可。
總結(jié)和其他 這里的介紹的TEXT函數(shù)在數(shù)據(jù)清洗中經(jīng)常會用到。大家有興趣的話可以在本公眾號中搜索相關(guān)的文章學(xué)習(xí)。 如果你的數(shù)據(jù)清洗工作比較復(fù)雜,這個數(shù)據(jù)清洗的任務(wù)可能很艱巨,你可以關(guān)注下面的公眾號:ExcelEasy尋找更多方法和技巧。 |
|
|