小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

雙拼研究

 幽夢(mèng)清影 2014-05-02
 轉(zhuǎn)貼自五筆愛(ài)好者論壇
原作者:wb_lover
     說(shuō)到動(dòng)態(tài)碼長(zhǎng),其實(shí)和拼音整句輸入有一定聯(lián)系。 動(dòng)態(tài)碼長(zhǎng),將輸入法從固定碼長(zhǎng)和碼表這個(gè)原先受限于系統(tǒng)平臺(tái)和開(kāi)發(fā)程序的框框中解放出來(lái),它的實(shí)質(zhì),就是讓輸入變得自由、省心。 ①五筆使用者或字詞方式者,可認(rèn)為動(dòng)態(tài)碼長(zhǎng)是對(duì)固定編碼長(zhǎng)度這一規(guī)則的突破和拓展,大大擴(kuò)展了編碼空間和減少了重碼率; ②整句愛(ài)好者或短句輸入習(xí)慣者,則可認(rèn)為這是對(duì)整句輸入中的細(xì)部分析研究,可更好的促進(jìn)整句輸入的正確率,培養(yǎng)好的識(shí)字、斷句方式,使得輸入更自然流暢。
    總體看來(lái),讓輸入越來(lái)越省心,讓使用的人從不必要的記憶中解放出來(lái),是輸入法不可逆轉(zhuǎn)的趨勢(shì)。長(zhǎng)期看來(lái),輸入法可以不同,輸入方式卻越來(lái)越會(huì)趨于一同。大概動(dòng)態(tài)碼長(zhǎng)會(huì)是其中熔合的重要過(guò)渡吧。
《雙拼研究》目錄

一、綜合研究
十二種雙拼編碼圖解
走馬觀花雙拼編碼
簡(jiǎn)拼與雙拼的兼容
零聲母設(shè)置小技巧
雙拼及拼音漫談
戲說(shuō)雙韻組合
使用雙拼時(shí)簡(jiǎn)拼與混拼的奧秘
簡(jiǎn)析新華拼音
對(duì)文字碼的一點(diǎn)小建議
二、徐氏雙拼
最順手的雙拼方案
雙拼編碼問(wèn)題研究(簡(jiǎn)版)
徐氏雙拼新版改進(jìn)說(shuō)明
《徐氏雙拼》新版改進(jìn)內(nèi)容說(shuō)明
《徐氏雙拼》新版鍵位設(shè)置說(shuō)明
呼喚全國(guó)統(tǒng)一的雙拼編碼方案
這里想利用以下資料對(duì)AhMan先生所提出的雙拼編碼問(wèn)題展開(kāi)來(lái)討論,以?huà)伌u引玉。
Flzt根據(jù)北京語(yǔ)言大學(xué)字詞頻資料進(jìn)行匯總,以下是統(tǒng)計(jì)數(shù)據(jù):
單字 9821        單字 16.1        8.9
雙字 32053        雙字 52.5        
三字 7257        三字 11.9        
四字 11500        四字 18.8        
五字 232        五字 0.4
六字 110        六字 0.2
七字 107        七字 0.2
八字 10        八字 0
九字 2        九字 0
純?cè)~條 51271        去生字詞條 56271        (單字以5000計(jì))
詞條 61092        詞條 61092
雙拼編碼的效率問(wèn)題
一、雙拼單字編碼
普通雙拼方案,單字編碼空間為26×26=676,拼音的音節(jié)數(shù)為424(為實(shí)際可用的空間)。
①有676-424=252個(gè)編碼空間未利用,故單字重碼率遠(yuǎn)高于五筆等形碼(假設(shè)五筆也用兩碼為單字編碼)。
②各音節(jié)所對(duì)應(yīng)漢字?jǐn)?shù)相差懸殊,極不均衡,部分音節(jié)漢字生僻,故每一空間首位的常用單字不足400個(gè)。
結(jié)論:盡管雙拼相對(duì)于全拼是高效的。正如阿門(mén)大師所說(shuō),單字仍是拼音的軟肋。
二、雙拼詞編碼
①詞(含單字詞)分布結(jié)構(gòu):三字及以上詞的比例約占1/3,按紫光的編碼方式(每字兩碼,一聲一韻),重碼率很低,基本可以盲打。單字占16%,參與統(tǒng)計(jì)的單字?jǐn)?shù)近萬(wàn);實(shí)際上常用者約5千左右,按此統(tǒng)計(jì)的比例為8.9%。雙字詞約占52%,碼長(zhǎng)為4;數(shù)量多,碼長(zhǎng)短,重碼率很高(與三字以上詞相比),是編碼的難點(diǎn),也是我們討論的重點(diǎn)。
②雙字詞的正常編碼空間利用率:按拼音加加和自然碼的編碼規(guī)則(主要是零聲母處理),雙拼編碼空間為26的平方,比五筆大(25的平方),且五筆單字編碼占據(jù)了部分空間;但拼音的不均衡造成編碼利用率偏低;兩相抵消,估計(jì)總體利用率差別不大。
③雙字詞的附加編碼空間(本帖主要內(nèi)容):混拼,碼長(zhǎng)為3,編碼空間為26的3次方(17576),這一部分空間在形碼方案中有相當(dāng)大的部分被單字所占據(jù),在雙拼中全部被混拼所用;混拼很有規(guī)律,無(wú)需死記混拼簡(jiǎn)碼(相當(dāng)于詞的二級(jí)簡(jiǎn)碼),在使用中就能熟練掌握。單字編碼所空余的252個(gè)空間,通常用作詞的一級(jí)簡(jiǎn)碼(即簡(jiǎn)拼),可安排200余個(gè)最常用的雙字詞(按紫光的編碼規(guī)則,這部分內(nèi)容不易掌握)。
綜合上述內(nèi)容,在雙字詞的編碼空間方面,拼音比五筆等形碼要寬余;平均碼長(zhǎng)(介于3-4之間)及重碼率指標(biāo)均優(yōu)于五筆。
三、單字詞輸入分析
按詞輸入的方式使很多高頻的單字也融入詞中,只有那些組詞困難的單字需用單字方式輸入。如紫光的一級(jí)簡(jiǎn)碼y就對(duì)應(yīng)“以”而不是“一”。這使單字輸入的幾率大大減少。
故,按詞輸入是拼音輸入法的優(yōu)勢(shì)和特色。
四、其它
①單字加形:自然碼、拼音加加、譚碼、夢(mèng)碼、自然二筆(學(xué)尚易)、我的雙雙碼等。譚碼是聲稱(chēng)可以盲打的。單字輸入幾率降低,但對(duì)輸入效率仍有很大影響,單字加形不失為一種解決辦法。為避免與簡(jiǎn)拼混拼沖突,拼音加加采用Tab鍵對(duì)單字形碼分流,效率仍不及五筆等。至于加什么“形”更合適,仍值得進(jìn)一步探索。


②生字查詢(xún):?jiǎn)巫旨有蔚牧硪缓锰幨悄茌斎肷ё?,還可以“以形查音”。這種情況很少遇到,我是在使用拼音輸入法一年后才遇到了一個(gè)不認(rèn)識(shí)的生字詞:柘城,這是河南的一個(gè)縣名。但在特殊場(chǎng)合,如錄入古文,拼音輸入法是無(wú)法勝任的。
最后結(jié)論:一個(gè)精心設(shè)計(jì)的以雙拼為主的輸入法,在效率方面和五筆等形碼不會(huì)有太大的差距。

無(wú)論是傳統(tǒng)的雙拼,還是單字加形分流的雙拼,其雙字詞的編碼指標(biāo)都高于五筆等形碼,完全避免了和單字編碼的沖突。換言之,雙字詞的高效是以單字詞的低效為代價(jià)的,雙字詞在一定程度上彌補(bǔ)了單字的不足。只站在詞或字的立場(chǎng)上看問(wèn)題,是有失偏頗的。


拼音和形碼是相通的
徐孟羅

一、紫光的編碼規(guī)則
從使用紫光的第一天起,我就用雙拼。
無(wú)論詞或單字,其雙拼編碼規(guī)則都是統(tǒng)一的:
單字:2碼
雙字:4碼
三字:6碼
四字:8碼
就像正常寫(xiě)字那樣,每字兩筆,按順序?qū)懢褪橇恕](méi)什么特別的,實(shí)際上無(wú)規(guī)則。
后來(lái)看到輸入法生成器的介紹文章,才知道有些輸入法中字詞都是等長(zhǎng)的4碼;即根據(jù)不同詞長(zhǎng)制訂不同的構(gòu)詞規(guī)則,即ce2、ce3、ca4等內(nèi)容。
二、拼音特色的“形碼”
拼音重碼多,主要是單字,因?yàn)榇a長(zhǎng)為2。自然碼、拼音加加采用后續(xù)輔助編碼方法,在一定程度上緩解了這一問(wèn)題,此時(shí)單字全碼碼長(zhǎng)為4。從形式上看,音碼與形碼已經(jīng)沒(méi)有什么不同了。其重碼率指標(biāo)仍不能令人滿(mǎn)意,因?yàn)槭苷Z(yǔ)言自然屬性的制約;同時(shí)仍保持了語(yǔ)言自然屬性的特點(diǎn),很容易上手。所謂成也蕭何,敗也蕭何!
輸詞時(shí)仍然是純粹的拼音;輸單字時(shí)多數(shù)情況下只需輸入一位輔助碼,有時(shí)只輸入拼音碼即可。其主體特色仍然是拼音。類(lèi)似于帶拼音特色的“形碼”。
三、動(dòng)態(tài)碼長(zhǎng)的新發(fā)現(xiàn)
雙雙碼是受前人啟發(fā)做出的實(shí)驗(yàn)品,基本沿用了上述的編碼習(xí)慣。掛接在極點(diǎn)平臺(tái)上,卻出現(xiàn)了新的效果。四字詞碼長(zhǎng)為8,但只需鍵入4-6個(gè)代碼即可無(wú)重碼上屏,總體平均碼長(zhǎng)為5。
表面上看,等長(zhǎng)四碼的方案(如傳統(tǒng)五筆)更高效,實(shí)際并非如此。知道這一點(diǎn)經(jīng)歷了一個(gè)艱難的過(guò)程。
上個(gè)月整理成語(yǔ)詞庫(kù),我用上海古籍出版社的成語(yǔ)辭典逐條輸入,歷時(shí)十余天。雙雙碼用的是拼音佳佳的22萬(wàn)海量詞庫(kù),但仍有很多詞條沒(méi)有,只好用單字方式輸入。此時(shí)四字的總體碼長(zhǎng)為10左右,若考慮多按的空格鍵數(shù)、打空時(shí)鍵入的4-6位無(wú)效代碼,其總體效率指標(biāo)將更糟糕。可以想見(jiàn),等長(zhǎng)四碼的方案無(wú)法容納更多的四字成語(yǔ),打空的幾率更高,重新返工輸入單字的效率更低。動(dòng)態(tài)碼長(zhǎng)大大拓寬了三字以上詞條的編碼空間,弱化了經(jīng)常打空所造成的負(fù)面效率影響。
使用五筆的wbahzhy等網(wǎng)友目前正在探索動(dòng)態(tài)碼長(zhǎng)問(wèn)題,不知是否受拼音所啟發(fā),但可肯定兩者在原理上是相通的??尚Φ氖?,不少拼音用戶(hù)(包括我在內(nèi))一直都在使用動(dòng)態(tài)碼長(zhǎng)功能,卻長(zhǎng)期處于下意識(shí)和不自覺(jué)的矇眬狀態(tài);從未使用過(guò)這一功能的五筆用戶(hù)卻在有意識(shí)地、主動(dòng)地探索這一問(wèn)題,并獲得了一些積極的理性認(rèn)識(shí)。真誠(chéng)地期待他們的成功!
仔細(xì)想想,wozy的三重碼詞庫(kù)和雙拼也有很多相似的地方。
單字加輔助碼,再除去三字以上的詞,雙拼和等長(zhǎng)四碼的純形碼方案也很相似,在編碼原理上也有很多可以相互借鑒的地方。

注:發(fā)此帖的原因,一是因?yàn)槭褂眯未a的慧通先生認(rèn)為,用動(dòng)態(tài)碼長(zhǎng)規(guī)則對(duì)形碼編碼,其技術(shù)指標(biāo)會(huì)超越拼音方式,我基本贊同這一論斷;二是五筆論壇wbahzhy、杜志民、LoveEB、玉樹(shù)臨風(fēng)、拼音佳佳等正在倡導(dǎo)進(jìn)行這方面的嘗試,我期望能盡早做出一個(gè)方案。
這樣做的好處是顯而易見(jiàn)的,既簡(jiǎn)化了編碼規(guī)則,又提高了技術(shù)指標(biāo)。

補(bǔ)充一點(diǎn),動(dòng)態(tài)碼長(zhǎng)實(shí)質(zhì)上是將三字以上的詞從等長(zhǎng)四碼的空間中剝離出來(lái)了,這同時(shí)也擴(kuò)充了雙字詞的編碼空間。動(dòng)態(tài)碼長(zhǎng)確實(shí)有利于簡(jiǎn)化編碼規(guī)則,任何詞都是每字兩碼,只不過(guò)無(wú)需輸全而已。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多