[asp]讓你知道codepage的重要，關(guān)于多語(yǔ)言編碼 - 后臺(tái)數(shù)據(jù)庫(kù)編程 - 經(jīng)典論壇...

lim 2007-11-28

展開全文

這幾天研究UTF-8編碼，太暈了，把我的看法和各位討論討論。
歡迎來批啊。以下都是我的想法，哪里有不對(duì)的請(qǐng)不吝賜教，幫忙指出來。
==========================================================
相關(guān)的題外話：
一、操作系統(tǒng)
window系統(tǒng)內(nèi)部都是unicode的。文件夾名，文件名等都是unicode的，任何語(yǔ)言系統(tǒng)下都能正常顯示。
二、輸入法：
微軟拼音輸出的是Unicode的，智能ABC輸出是簡(jiǎn)體中文的（所以智能ABC在非簡(jiǎn)體中文系統(tǒng)根本不能用，只能打英文）。
三、網(wǎng)頁(yè)的textarea
網(wǎng)頁(yè)的textarea是用unicode顯示的。所以往里打什么字都能顯示。而一些flash做的輸入框就不行了。
四、Access2000
access里面保存的數(shù)據(jù)是unicode的，在任何語(yǔ)言系統(tǒng)下都能顯示。
如果數(shù)據(jù)視圖查看有些字符不正常，那是因?yàn)轱@示所用的字體不是Unicode字體，
換用Arial Unicode MS 字體就能全部顯示了。（access幫助，搜索，輸入unicode，有說明）
五、Word
word里的繁簡(jiǎn)轉(zhuǎn)換，簡(jiǎn)體轉(zhuǎn)換到繁體后，內(nèi)碼仍是簡(jiǎn)體中文的，其實(shí)只是簡(jiǎn)體中的繁體字。
六、ASP內(nèi)部是Unicode的，所有文本都是Unicode存儲(chǔ)的。需要時(shí)轉(zhuǎn)換到指定字符集。
=======================================================
首先說下結(jié)論：
<%@ codepage=936%>簡(jiǎn)體中文
<%@ codepage=950%>繁體中文
<%@ codepage=65001%>UTF-8

codepage指定了IIS按什么編碼讀取傳遞過來的串串（表單提交，地址欄傳遞等）。
也指定了所有文本變量從Unicode轉(zhuǎn)換到的編碼，
也就指定了從數(shù)據(jù)庫(kù)取出的數(shù)據(jù)從Unicode轉(zhuǎn)換到的編碼。（注意這個(gè)，很重要。）

關(guān)鍵字：
讀?。阂粋€(gè)串串，按簡(jiǎn)體讀取是一些字，按繁體讀取是一些字，串串本身編碼沒有變。
轉(zhuǎn)換：系統(tǒng)主動(dòng)的轉(zhuǎn)換，比如從Unicode的“化”字到Big5的“化”字，內(nèi)碼變成Big5的。如果Big5沒有對(duì)應(yīng)的字，保留Unicode形式（&#xxxx;）

簡(jiǎn)體中文：化六個(gè)結(jié)論
Unicode16進(jìn)制形式：化六個(gè)結(jié)論
Unicode10進(jìn)制形式：化六個(gè)結(jié)論

下面是我推測(cè)出來的編碼轉(zhuǎn)換的過程：
客戶端：輸入法Unicode--輸入框unicode--從Unicode按charset轉(zhuǎn)換到對(duì)應(yīng)編碼()--表單發(fā)送編碼

服務(wù)器端：IIS解開表單編碼--按codepage指定編碼讀取--轉(zhuǎn)換到對(duì)應(yīng)的Unicode--可以用request("")讀取了--進(jìn)行一些處理--以Unicode編碼保存到數(shù)據(jù)庫(kù)

服務(wù)器端：讀取數(shù)據(jù)庫(kù)的Unicode數(shù)據(jù)，轉(zhuǎn)換到codepage指定編碼---生成源代碼--IE按charset讀取顯示。

下面舉例說明：
例一：
假設(shè)有三個(gè)asp頁(yè)面，典型的留言頁(yè)面：
1. write.asp 簡(jiǎn)單的輸入表單，提交到add.asp。
<META http-equiv="Content-Type" content="text/html; charset=big5">
2. add.asp 接收留言，保存到數(shù)據(jù)庫(kù)
<%@ codepage=936%>
3. read.asp 從數(shù)據(jù)庫(kù)取得留言，顯示。
<%@ codepage=936%> charset=GB2312 或
<%@ codepage=950%> charset=big5

大家可以猜一猜，我在write.asp里用微軟拼音輸入法輸入“化六個(gè)討論”。最后在read.asp里會(huì)顯示什么樣？
是不是暈了。讓我們從頭分析。

Click here to open new window
CTRL+Mouse wheel to zoom in/out

例二：
把例一的add.asp的<%@ codepage=936%>改為<%@ codepage=950%>，又會(huì)怎么樣呢？

Click here to open new window
CTRL+Mouse wheel to zoom in/out

到這里發(fā)現(xiàn)了什么？
1．如果輸入的文字和Charset對(duì)應(yīng)的不同，一轉(zhuǎn)換，就可能出現(xiàn)Unicode形式的字了。這里就是原因所在。以后整個(gè)過程都保留著。
2．Add.asp里codepage決定了保存到數(shù)據(jù)庫(kù)的文字，用的是哪個(gè)語(yǔ)言對(duì)應(yīng)的Unicode.如codepage=936，
那么數(shù)據(jù)庫(kù)保存的就是簡(jiǎn)體中文的Unicode（數(shù)據(jù)庫(kù)拿回簡(jiǎn)體中文系統(tǒng)，一切正常的），
codepage=950保存的就是繁體中文的Unicode.（拿回簡(jiǎn)體中文系統(tǒng)，就不對(duì)了）。
3．注意一下串串的變化過程：
--------------------------------------------------------------------
1) 輸入法---Charset Unicode----指定字符集的映射
2) Charset----表單編碼串串簡(jiǎn)單編碼
3) 表單解碼上步的逆過程，兩步抵消了。
4) 串串à按codepage讀取串串沒變，這步有可能“誤會(huì)讀取”
5) 轉(zhuǎn)為對(duì)應(yīng)的Unicode Codepage指定字符集----Unicode映射
6) 中間處理，進(jìn)數(shù)據(jù)庫(kù) 無變化，直接以Unicode形式進(jìn)入
7)
8) 按codepage讀取數(shù)據(jù)庫(kù) Unicode----codepage指定字符集的映射
9) 顯示，按Charset指定字符集讀取串串沒變。
-------------------------------------------------------------------------------
以例一說明：

例二：

=============================================
暈了。現(xiàn)在來用用知識(shí)。

案例1。
簡(jiǎn)體中文系統(tǒng)下跑的好好的代碼，放到國(guó)外空間上，數(shù)據(jù)庫(kù)里亂碼，原有的數(shù)據(jù)也亂碼。
分析：因?yàn)榇蠖鄶?shù)人平時(shí)用的都是簡(jiǎn)體中文系統(tǒng)，默認(rèn)的codepage=936，所以平時(shí)大家不寫也沒有關(guān)系。
但到了國(guó)外空間問題就出來了。從數(shù)據(jù)庫(kù)里的Unicode轉(zhuǎn)換到英文編碼去了，所以數(shù)據(jù)庫(kù)原有的簡(jiǎn)體中文轉(zhuǎn)換到英文后，按GB顯示自然亂碼。
如圖，新輸入的文字顯示正常，但數(shù)據(jù)庫(kù)里保存的是英文的Unicode的。
解決方法：全部加上<%@codepage=936即可%>。
全程只有簡(jiǎn)體中文與對(duì)應(yīng)Unicode間的轉(zhuǎn)換。

案例二：
簡(jiǎn)體中文的代碼和數(shù)據(jù)，想轉(zhuǎn)為完全的繁體版，該怎么辦？
分析：1。代碼文件編碼全部改為Big5的，文件本身保存編碼選繁體。
2．<%@ codepage=950 %>
3.Charset=big5
4.access版本無所謂，因?yàn)閍ccess里的數(shù)據(jù)是Unicode的。
5.好了，代碼可以在純繁體系統(tǒng)下跑了。
6.遺留問題：原有的簡(jiǎn)體中文數(shù)據(jù)讀出會(huì)有一些問號(hào)。效果同例一的950讀取，big5顯示。因?yàn)閺暮?jiǎn)體中文的Unicode轉(zhuǎn)換到繁體中文了，有些字繁體中沒有，就會(huì)出問號(hào)。
7.解決：用一個(gè)臨時(shí)asp頁(yè)，codepage=65001，讀出為簡(jiǎn)體中文的Unicode，用一個(gè)Unicode->Big5的函數(shù)，轉(zhuǎn)為繁體中文，然后寫回?cái)?shù)據(jù)庫(kù)，應(yīng)該行了吧？
案例三：
簡(jiǎn)體中文的代碼和數(shù)據(jù)庫(kù)，想轉(zhuǎn)為完全的UTF-8版，怎么辦？
分析：1。代碼文件編碼全部改為UTF-8的，文件本身保存編碼選UTF8。
2．<%@ codepage=65001 %>
3.Charset=UTF-8
4.access版本無所謂，因?yàn)閍ccess里的數(shù)據(jù)是Unicode的。
5.OK，沒有任何遺留問題。原有的簡(jiǎn)體中文也會(huì)正常顯示。因?yàn)閿?shù)據(jù)庫(kù)里是Unicode的，按Unicode讀出沒有任何轉(zhuǎn)換。自然不會(huì)亂碼。看來轉(zhuǎn)到UTF-8還是很簡(jiǎn)單的。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： lim > 《web開發(fā)》

舉報(bào)/認(rèn)領(lǐng)