|
剛來這個(gè)公司,熟悉了環(huán)境,老大就開始讓我做一個(gè)遷移、修改代碼的工作,我想說的是,這種工作真沒勁~~,看別人的代碼、改別人的代碼、這里改個(gè)變量、那里改個(gè)文件名······,都是些沒技術(shù)含量、很繁瑣的事情,不過通過遷移代碼順便熟悉下環(huán)境也好。扯了這么多,說說今天的主題吧——代碼編碼格式改變,由于某些原因,需要將代碼從A機(jī)房遷移到B機(jī)房,這兩個(gè)之間不能互相訪問,但是歷史原因?qū)е翧機(jī)房的代碼全是utf8編碼的,B機(jī)房要求是GBK編碼,看看這個(gè)怎么解決。 編碼問題 先說說為什么會(huì)有編碼問題,就拿上面那個(gè)例子來說,B機(jī)房這邊數(shù)據(jù)庫全是GBK編碼的,因此從數(shù)據(jù)庫中取出來的數(shù)據(jù)都是GBK的,從數(shù)據(jù)庫中取出來的數(shù)據(jù)是GBK編碼的,要在展示的時(shí)候不亂碼,在不對數(shù)據(jù)庫取出的數(shù)據(jù)轉(zhuǎn)換的情況下,就需要發(fā)送header的時(shí)候設(shè)置編碼為GBK,輸出的文件(html、tpl等)都必須是GBK的,看看下面這個(gè)圖會(huì)更清楚點(diǎn): DB(GBK) => php等(編碼格式不限但如果代碼文件中有漢字,文件就要是gbk編碼或者在漢字輸出的時(shí)候轉(zhuǎn)化為gbk) => header(GBK) => html、tpl(GBK) 或者還有一種方式只在出庫的時(shí)候在代碼中將utf8轉(zhuǎn)化為gbk,總的來說utf8還是更流行點(diǎn),問題更少點(diǎn) DB(GBK) => php等(utf8,并將從數(shù)據(jù)庫取出的數(shù)據(jù)轉(zhuǎn)化為utf8) => header(utf8) => html、tpl(utf8) 只要按照上面這兩種規(guī)范編碼格式,就不會(huì)出現(xiàn)亂碼情況,起碼我測試的第一種方式是沒問題的,所以我猜第二種也ok,好了,現(xiàn)在就來寫一個(gè)轉(zhuǎn)換文件編碼格式的小腳本:
腳本很簡單,使用也很簡單 ./changeEncode.py target_dir fromEncode toEncode us-ascii編碼是utf-8編碼的一個(gè)子集,這個(gè)是從stackoverflow上得到的,原文如下ASCII is a subset of UTF-8, so all ASCII files are already UTF-8 encoded, 我試了下確實(shí)是的,在不加漢字的時(shí)候顯示編碼為us-ascii,加了漢字之后,變?yōu)閡tf-8。 還有就是ASNI編碼格式,這代表是本地編碼格式,比如說在簡體中文操作系統(tǒng)下,ASNI編碼就代表GBK編碼,這點(diǎn)還需要注意 還有一點(diǎn)就是一個(gè)在linux下查看文件編碼格式的命令是: file -i * 可以看到文件的編碼格式。 當(dāng)然了,上面的可能有些文件中有特殊字符,處理的時(shí)候會(huì)失敗,但一般程序文件是沒有問題的。 |
|
|