GB2312何時能夠代替UTF-8？

好漢勃士 2021-10-14

展開全文

編碼如果我們只認識UTF-8和GB2312就顯得格局太小了，甚至于有非常多人不了解它們是什么，又代表了怎樣的含義，所以才提出GB2312何時能夠代替UTF-8的問題。

眾所周知目前的機器僅能識別“0”和“1”，也就是說機器只能夠處理數(shù)字，想要處理文本，就必須先把文本轉換為數(shù)字機器才能處理。舉個例子：字母“A”是一個字符，在ASCII碼中十進制數(shù)“65”就表示字符“A”，用二進制數(shù)表示就是“0100 0001”。這時我們就能很好地理解編碼了，編碼表非常像一本字典，只有它的存在二進制數(shù)、十進制數(shù)、字符之間才能相互轉換，像極了一本密碼本，只有擁有這本密碼本才能相互解密，要不看著就是亂碼。

最早出現(xiàn)的編碼是ASCII，因為計算機最早是由美國人發(fā)明的，所以ASCII里最早只有127個字符被編碼到計算機里，包括了大小寫英文字母、數(shù)字和一些符號。

如果全世界的人都使用英文那么編碼后面就不會發(fā)生那么多事了，26個字母大小寫也就是52個，數(shù)字0^9，再加上標點符號和其他一些符號，但事實并不是這樣的全世界有上百種語言，所以各國都有各國的編碼標準。比如中國大陸幾乎所有的中文系統(tǒng)和軟件都支持GB2312（GB就是國標的意思），它幾乎滿足了計算機中漢字99.75%的使用頻率，但人名、古漢語等會出現(xiàn)罕用字，所以才出現(xiàn)了后來的GBK、GB18030漢字字符集。

各國的編碼各顧各的就導致了亂碼

過去word文檔打開常常就是一堆亂碼，就是編碼導致的，沒有識別到正確的編碼顯示就是亂碼。

因此Unicode字符集編碼就出現(xiàn)了，它將世界上所有語言都統(tǒng)一到了一套編碼里面，這樣就不會再出現(xiàn)亂碼的問題了，所以操作系統(tǒng)和大多數(shù)編程語言就開始直接支持Unicode字符集編碼。

Unicode字符集確實是解決了亂碼的問題，但如果你寫的文本基本都是英文的話，用Unicode編碼會比ASCII編碼需要多出一倍的存儲空間，因為ASCII編碼是1個字節(jié)，而Unicode編碼通常是2個字節(jié)。比如字母“A”用ASCII編碼二進制是01000001，而采用Unicode編碼就是00000000 01000001，這樣在存儲和傳輸?shù)男噬暇惋@得特別的不劃算。于是Unicode編碼就演變?yōu)榭勺冮L編碼的UTF-8編碼，常用的英文字母被編碼為1個字節(jié)，漢字通常是3個字節(jié)，而一些生僻字符則會編碼成4~6個字節(jié)，這樣就能節(jié)省存儲資源、提高傳輸?shù)男省?/p>