小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

一、語言的編碼效率

 昵稱865028 2013-02-14

  語言究竟是什么呢?語言是一套編碼系統(tǒng)。人類的語言和電子設(shè)備的通信協(xié)議,本質(zhì)上是一樣的。就是我有信息,我通過這套代碼和協(xié)議傳送給你,你接受到我的信息并且理解,我們完成了這個交流的過程。(我覺得沒有學(xué)習(xí)過電子工程的語言學(xué)家們可能不能從這個角度理解語言,所以有時候會冒出些偏頗的結(jié)論。)

 

語言有兩個方面,口頭和書面。人類語言都是從口頭語言發(fā)展起來的,成熟的語言會發(fā)展到書面形式。如果這么理解的話,口頭和書面好像是一個事物的兩個方面。但是如果你從編碼的角度理解,你就會有個新的視角——口頭和書面是兩套代碼,一套音頻代碼,一套視頻代碼。這兩套代碼是個多對多的映射關(guān)系??陬^和書面,不如我們想象中的聯(lián)系那么緊密。

 

從這個結(jié)論出發(fā),我們會得到很多推論。隨意的舉幾個例子:

 

一、我們可以有全新的一套視頻代碼替換現(xiàn)有的,而這個系統(tǒng)工作正常,比如有人提出拋棄漢字,全部拼音化。

 

二、口頭語言的編碼效率和書面語言的編碼效率是可以分開來看的,比如漢語的口頭語言的效率要比漢字的效率高。

 

三、書面的字符集要包括上標(biāo)點符號,因為標(biāo)點符號是傳達(dá)不可或缺的信息的。比如英語離開空格是無法工作的。不要小看這個空格,這里面有講頭,以后再講。

 

等等等等

 

有人說漢字的效率高,因為同樣的一篇文章,肯定是中文的最短。我并不是太確定。這里面有個字體大小的問題。你必須有個標(biāo)準(zhǔn)。比如,把字體調(diào)到能讓人能看清的最小限度,在同樣面積的里面,究竟哪種語言能傳送更多的信息。我沒有明確的結(jié)論。

 

從書寫的角度,漢字的速度顯然慢。所以漢字才被簡化以提高書寫速度。

 

顯然漢字可以進(jìn)一步簡化而不引起歧義。為了提高效率,越簡化越好嗎?不是的。編碼學(xué)還有另一個指標(biāo),叫做容錯。一條信息的冗余越小,它的容錯率就越差。比如英語也可以簡化,就是縮寫。Quantity可以縮寫成Qty而不引起任何歧義,但是容錯能力巨減。如果你錯寫一個字母或者少寫一個字母,比如寫成Quatity,讀者可以猜測你的意思,但是如果Qty變成Qt,讀者就是錯誤理解為quarter。所以效率的提高是以犧牲容錯能力為代價的。

 

漢字的書寫速度慢,但是閱讀速度快。因為漢字接近圖形,而人對圖形的反應(yīng)比對字符的反應(yīng)要快得多。所以你看軟件菜單里,有的干脆用漢字作圖標(biāo)(讓不認(rèn)識漢字的人使用漢字圖標(biāo)?。?/SPAN>

 

因為漢字的傳出(書寫)成本高,傳入(閱讀)成本低,可以得出一個有趣的結(jié)論是,漢字在大規(guī)模信息傳遞中,效率比其他語言高。也就是說,假設(shè)所有人都懂漢語和英語,純粹以效率來衡量,一對一的書面交流應(yīng)該用英文,出版報紙則應(yīng)該用中文。

 

紙面書寫是傳統(tǒng)方式,在計算機時代,鍵盤輸入和硬盤內(nèi)存儲存是新的衡量標(biāo)準(zhǔn)。結(jié)論也是顯而易見,漢字輸入慢,漢字存儲密度高。中文輸入法仍然是個軟點。

 

講完書面講口頭。

 

代碼集大的系統(tǒng)有優(yōu)勢。漢語的優(yōu)勢在乎聲調(diào)。漢語有四聲,再加上輕聲,共有5種聲調(diào), 21個聲母,35個韻母。英語有28個輔音,20個元音。這個差別還是比較大的。

 

一個比較合理的計量方法是:

 

漢語,比如,計作2,因為它包含han。但是要計作3,因為它有sh, u, i。如果是三聲的,要計作4,因為三聲和其他聲調(diào)不同,它是個拐音。

 

英語。Pen,計作2,道理與漢語相同。Language要計作6,因為它有l, an, g, u, i, ge。Select要計作6,這里的每個字母都發(fā)音。漢語的拐聲被多計一個數(shù),相應(yīng)的,英語的長音要計作2,比如cheese要計作4,因為它用時略長。

 

注意上面不是我們常說的音節(jié),我算得比較細(xì),權(quán)且稱為音數(shù)吧。

 

常見的日常詞匯里,大概四五個音數(shù)就搞定了。但是英語稍微復(fù)雜一點音數(shù)就開始增長,即使像常見的finish, prepare, tooth pasteflower是個更過分的例子,這么常用的詞竟然有5個音。

 

而中文詞匯基本上都用兩個漢字,到四個漢字就到了成語的領(lǐng)域。(成語需要單獨討論。古語的信息載量更大,四個字頂一句話。)中文里四個以上的詞匯極少。即使像綣繾這么罕見的詞都是兩個字。

 

再據(jù)個例子,是基本的通用的字,精確一些涵蓋面小一點,建設(shè)算是比較高級的詞。他們的音數(shù)分別是2,2,5。對應(yīng)成英文:make, build, construct。音數(shù)分別是3,4,7。稍微復(fù)雜一點單詞就變長了。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多