|
ISO10646/Unicode規(guī)定了一套字符集,包含了世界上大多數(shù)常用字符,規(guī)定了這些字符的編碼。也就是說(shuō),每個(gè)字符會(huì)有一個(gè)規(guī)定好的編碼。 UTF8,UTF16,UTF32則規(guī)定了一套算法。根據(jù)各自的算法存儲(chǔ)ISO10646/Unicode的相應(yīng)字符。 [Edit UTF-8] UTF-8UTF-8的算法根據(jù)unicode字符的范圍而有變化,主要表現(xiàn)在存儲(chǔ)的字節(jié)數(shù)上,這是為了兼容ascii的單字節(jié)編碼。具體是這樣的: 0000-007F | 0xxxxxxx上面這個(gè)表里,字段1表示范圍,字段2表示編碼所使用的算法,或許稱為模板更為準(zhǔn)確。 例如有一個(gè)字符(汜),在unicode里的編碼為十六進(jìn)制的6C5C,范圍在0800-FFFF之間,所以取模板1110xxxx 10xxxxxx 10xxxxxx(也就是說(shuō),該字符為三字節(jié)的寬字符),該字符編碼換算成二進(jìn)制后代入模板,得1110[0110] 10[110001] 10[011100]。中括號(hào)里的數(shù)字,連接起來(lái)就是該字符的unicode編碼的二進(jìn)制表示。 下面是一個(gè)我寫(xiě)的把html的實(shí)體轉(zhuǎn)換為utf-8的函數(shù),編程語(yǔ)言為php。html的實(shí)體的其中一種格式為 unicode編碼的十進(jìn)制;,注意最后有個(gè)分號(hào)。 function htmlentity2utf8($string) { Config........0.00045204162597656 SECs
Instantiate..0.010334014892578 SECs Render......3.3175349235535 SECs This wiki is under GPL and the latest version can be found here. iso10646NavigatorKeyShortCuts
|
|
|
來(lái)自: Ralf_Jones > 《其它》