鄭碼檢視原始碼討論檢視歷史

鄭碼
來自網絡的圖片

鄭碼又稱字根通用碼，是我國著名文字學家、享譽海內外的《英華大詞典》主編鄭易里教授經半個世紀對漢字字形結構的研究，後期和女兒鄭瓏高級工程師共同創造的重大科技成果。已獲中、美、英國專利授權，並通過國家級的鑑定。權威專家們確認鄭碼是國內最優秀的字形編碼系統。鄭碼具有規範、易學、快速、通用的優點。

基本信息

中文名稱；鄭碼

別名；字根通用碼

發明者；鄭易里

優點；規範、易學、快速、通用

簡介

《鄭碼》規範、易學、快速、通用，用同一編碼規則不但可以輸入2萬漢字，還可以輸入68000個和10萬個漢字。《鄭碼》曾榮獲北京國際發明金獎和最優秀髮明大獎;榮獲第22屆日內瓦發明金獎。國家主管部門通過評比向國內外用戶廣泛推薦《鄭碼》。中國的中文之星等系統平台選用《鄭碼》，美國Microsoft公司的Windows95/98/NT/2000/XP/Vista/7中文系統選用《鄭碼》，美國IBM公司的OS/2和JAVAOS等許多中文產品也都選用《鄭碼》。Windows 8之後因為版權問題，微軟終止了在系統中內置鄭碼輸入法。

單字輸入

《鄭碼》以單字輸入為基礎，詞語輸入為主導，用2-4個英文字母便能輸2字詞、多字詞和30個字以內的短語;在這種字詞交融輸入之下，輸入一個漢字的平均碼長是1.8-1.9鍵之間。他備有兩個詞庫，分別收錄25000和50000條詞語。

輸入法

《鄭碼》是一種形碼輸入法，使用鄭碼可以方便快速的打出國標擴充字庫(GBK字庫)里的2萬多個漢字和GB18030的7萬多漢字，極大滿足了人們在日常生活、工作中使用漢字的需求。

在常規情況下，《鄭碼》輸入法可以方便、快速的打出GBK字庫里的20902個漢字。比普通《五筆字型》能打出的6763個漢字要多打出14139個漢字，在超集字庫下，鄭碼可以打出GB18030裡面的7萬多個漢字(支持到CJK-D字集)，正因為這個原因Windows系統自win95到win7系統沒有選用其它輸入法，而是預裝了《鄭碼》輸入法。

編碼原理

《鄭碼》編碼的基本原理《標準型》

鄭碼的幫助文件中這樣說:"為了不同用戶的需求，《鄭碼輸入法》分為《普及型》和《標準型》兩種。《標準型》重碼率低，適合高速盲打輸入。它不但適用於當前通用字符集的 6763 個漢字的輸入，而且用同樣的編碼規則，Windows 2000 中，還能方便地輸入大字符集的 20902 個漢字。《普及型》的編碼規則簡單易學，但不能用來輸入大字符集漢字。《普及型》可以作為《標準型》的學習階梯，因為二者字根的代碼有共性，因此用熟練後能自然過渡到《標準型》。"由於我的機上可以輸入大字庫的字，所以我講的是《標準型》。

主要方式

一 .高頻字取碼方式

這W月Q我M發Z現C了Y對X一A度T所P說S要F成H為U個O沒V多R中J用L地B在G世E上I的D是K他N

二. 一基根字的取碼方式.就是那些只有一個基根的字.它們如果是第一主根，就打出該主根代碼，然後在其後加上A即是.舉例:言是S上的第一主根，其的代碼即是SA.馬**X***XA,依此類推.

它們如果是第二主根或者是副根，直接打出.

尤*****GR,其****EC,業******KU,廣*****TG,氏****RH,欠******RO

女*****ZM,子*****YA,已*****YYA,申*****KIC,比******RR

七*****HD,龍*****GM,大******GD.十*****ED,寸*****DS

但是，由於許多基根不是常用的，當它們的代碼與某些詞組重碼時，系統將默認詞組.你要打出基根時候，有時不得不加上一個或者多個A,這是鄭碼的幫助文件中未提及的.好在這種情況發生時，你要的基根並不是很需要按+,系統也是要提醒你輸入A的.

三. 二基根字的取碼方式.兩個基根的字，如果兩個基根的代碼都是一個字母，就在它們的後面加上"VV".其餘的就直接取碼就是了.

例子:碼=石G+馬X********GXVV

杜=木F+土B=FBVV. 上=卜ID+一A=IDA,下=一A+卜ID=AID

推=扌D+隹NI=DNI 拓=扌A+石G=GAVV,雹=雨FV+包RY=FVRY

取=耳CE+又XS=CEXS 麼=丿M+厶ZS=MZS 要=西FJ+女ZM=FJZM

四. 三基根字的取碼方式.三基根字的取碼方式又分為兩種情況.

1如果首基根是一個代碼，就取次基根的首碼[不管它有幾個碼]和末基根的全碼.

騰=月Q+UB+馬X=QUX,淵=氵V+リND+米UF=VNUF

2如果首基根是二個代碼.那麼次基根和末基根只取首碼[不管它們有幾個碼].

靠=⺧MB+口J+非KC=MBJK,羥=⺶UC+スXS+工BI=UCXB

五.四基根字的取碼方式.

1如果首碼是一個碼，就取首碼和次基根的首碼，加上次末基根和末基根的各一個首碼.藏=艹E+戈HM+爿ZI+臣H=EHZH,懿=士B+冖WW[一口丬冫]欠RO+心WZ=BWRW

2如果首碼是二碼，由於首基根的代碼不能省，就只能省略次基根的代碼.相對於上一種情況，首基根的另外一個位置由次基根讓出.也就是說:首基根的代碼加上次末基根和末基根的各一個區碼。例子:

戇=立SU+[日十夊工]+貝LO+心WZ=SULW

總之首基根是不能省的，是一取一，是二取二.

小注意:鄭碼中"辶","廴"是取碼中首要取的，這一點不和五筆一致.但是在有別的偏旁存在的情況下，又要放在後面.比如"進"中"辶"在首選就要取碼，而在"蓮"中就要在"艹"的後面馬上要取，先於"車"。這一點好像恰恰與五筆字型中的取碼方式相反。

六簡碼的取碼方式.

一級簡碼:就是剛才說的26個高頻字。

二級簡碼用該字首根和次根各 1 碼組成。舉例:把 -- DY 找 -- DH 管 -- MW .需 -- FG 取 -- CX

個別常用詞也有二級簡碼，就是取每字第一個基根的區碼。舉例:

中國--JJ 國家--JW 一定--AW 我們--MN 政府--AT 開展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各種--RM 採取--PC.

三級簡碼

二基根字:取第一個基根的區碼和第二個基根的區位碼，如:處 -- RID。

三基根和多基根字:依次取第一、第二和第三個基根的區碼，如:散 -- EQM。

七詞組輸入取四碼

1.二字詞組 2+2

例子: 我們MVNT 中華JVNR (我字是一個高頻，故其後加V)

言語 SASB(言在第一個故其後加A)

大家GDWG 詞組SYZL 騰飛QUYT

神話WKSM 童話SKSM 神仙WKNL

2.三字詞組 1+2+1

例: 大家庭GWGT 神經原WZXG

3.四字詞組/俗語/成語 1+1+1+1

例: 祖國統一WJZA 中華民族JNYS 無奇不有AGGG

一絲不苟AZGE 無拘無束ADAF 風土人情QBOU

字庫里成語不多哩:)

4.五字以上 1+1+1+1

取前面四字首碼

例:中華人民共和國JNOY

中央電視台JLKW

基根位碼

每一根區里都有幾個基根，它們的區碼都相同，在它們單獨成字或與其它基根組合成字時，會產生許多重碼字。為解決這一問題，《鄭碼》規定:第一主根的代碼用區碼的1個字母表示，第二主根和副根的代碼都要用"區碼+位碼"2個字母表示，即在區碼後面擴充一個位碼，這種安排使得每個基根都有了獨立的代碼，從而解決了重碼問題。就象每個人有姓有名才不會有太多的重名一樣。

編碼規則

第一條:要按照《鄭碼》的基本字根總表上所列出的基根(包括形近根)，把漢字分解成基本字根才能編碼。如果沒有合適的基根，就要進一步分解成筆畫。例如:

補--衤卜懇--艮心濾--氵虍心書--乛丨丶

第二條:漢字分解後，基根和筆畫排列的順序叫做"根序"。根序的確定有三種情況:

l.左右字、上下字以及由單筆畫組成的字，根序與規範的書寫順序一致(見上例中的"補、懇、濾、書"四個字的分解)

2.具有相接、交叉和相嵌結構的字，第一筆先寫的基根或筆畫排列在前。例如:([]方括號內是例字)相接結構的字:夭--丿大[沃笑];

疋--乛止[蛋疏];

交叉結構的字:束--木口[整辣];

夷--大弓[姨];

屯--七凵[純鈍噸];

相嵌結構的字:亘--二曰[桓恆];

僉--人二(橫三點)[檢驗]

淵--氵(撇-豎)米;

肅--肀(撇-豎)八[蕭簫]

複合結構的字:決--冫乛大[缺炔](又有相接又有相交);

3.對於包圍字和包孕字，要將第一筆先寫的基根排在第一位。

因為是以基根為單位排列根序。例如:

困-囗木聞-門耳函-乛氺凵式-弋工

載-車庫-廣車匭-匚車九趙-走乂

但是，為了檢索的快捷和歸納的劃一，對於有"辶、廴"的字，確定根序時，要將"辶、廴"排列在第一位。

例如:"達-辶大"、"延-廴丿止"。

總之，給單字或詞語編碼，就是按照編碼規則依次取基根的代碼組成字詞的編碼。根序搞錯編碼也隨之而錯。因此，正確認識單字的根序十分重要。

第三條:單字和詞語的編碼不能超過4個字母，因此要根據單字或詞語中基根數的多少決定基根代碼的取捨，這種取捨代碼的方法叫取碼方法(詳見以下說明) 。

取碼方法

術語:"1碼根"是指第一主根，因它的代碼只用區碼1個字母。"2碼根"是指第二主根和副根，因為它們的代碼要用區位碼的2個字母。"取1碼"的意思是只取該基根的區碼。

一、單字編碼的取碼原則

1.單字首根(即第一個基根)的代碼要按照實際碼數取，不能有所省略。就是說，首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要取)。

2.為保證單字編碼不超過4個字母，首根之後的其餘基根代碼要根據不同情況決定取捨。一般是先舍位碼，只取區碼的1碼。

例如:櫻--木F貝LO貝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是，對於四基根和多基根字，還要將中間一些基根的代碼全部捨棄，只取前兩碼和最末2個基根各1碼。就是說，取兩頭舍中間。

例如:縮--糹Z宀WD(亻)一A白NK--ZWAN

糖--米UF(廣)肀XB口J--UFXJ^[1]

參考文獻

↑ 鄭碼, 360國學 ,

[1] 鄭碼, 360國學 ,

[1]