T形漢字碼輸入法--漢語言文學論文
形部編碼的取碼規(guī)則規(guī)定為:左右結(jié)構(gòu)的漢字,按整體結(jié)構(gòu)分為二部分,左半部分簡稱左部,右半部分簡稱右部,分別按書寫順序取該漢字的左部和右部的第一個基本部件的代碼進行編碼,即按該漢字的書寫順序分別取左部和右部的第一個基本部件的代碼進行編碼。今天學習啦小編要與大家分享的是漢語言文學論文:T形漢字碼輸入法。具體內(nèi)容如下,希望能夠夠幫助到大家:
T形漢字碼輸入法
1 背景技術(shù)
鍵盤輸入法是目前漢字輸入法中技術(shù)最成熟,使用最廣泛的輸入法。按編碼劃分,可分為音碼、形碼、音形碼三類[1-3]。
音碼以漢語拼音為基礎(chǔ),利用漢字的讀音進行編碼。音碼的優(yōu)點是使用方便,只要會漢字拼音,就可以進行輸入,簡單易學,所以使用最為廣泛;缺點是同音字多,單字重碼率高,漢字輸入速度會慢。搜狗輸入法等采用了智能和云輸入技術(shù)提高了拼音輸入速度,但重碼選擇仍是個難題[4-5]。
形碼利用漢字的字形特征進行編碼,往往漢字部件太多,記憶麻煩,有時拆分也麻煩。五筆字型是其典型,有的形碼采用將漢字五種基本筆畫二二組合的方法,雖然漢字部件少,記憶方便,但卻付出了不夠直觀,將漢字部件拆散了的代價,易學的同時卻不易用。
音形碼利用漢字的語音特征和漢字的字形特征編碼。它利用了漢字的音碼和形碼各自的優(yōu)點,兼顧漢字的音和形,往往較為簡單,缺點是打字時在音和形之間思維不斷轉(zhuǎn)換,容易疲勞。只用漢字聲母參與編碼的音形碼,如二筆輸入法等,由于必須舍棄韻母,與人們的習慣思維不符,才特別存在音形思維轉(zhuǎn)換問題。完整地利用了漢字的聲母和韻母,并且規(guī)定音碼部分在先,形部編碼部分在后的話,則思維不需要在音和形之間轉(zhuǎn)換,基本上不會影響思維。
這樣我國三十多年所發(fā)明的二、三千種輸入法都未能克服“簡單的不快速,快速的不簡單”這一漢字輸入法技術(shù)難題。
2 發(fā)明方案
本方案屬于計算機漢字編碼輸入法。目的是提供一種漢字部件規(guī)范直觀、簡單易學、取碼規(guī)則合理、部件分類合理、輸入漢字簡便快捷的計算機漢字編碼輸入方法,這就是T形漢字碼輸入法。
本T形漢字碼輸入法的編碼由音碼和形部編碼兩個部分組成。音碼在先,形部編碼在后。音碼部分可用全拼或其他雙拼或注音字母拼音或不完整拼音,一般采用拼音,為提高速度,音碼還可采用雙拼,占二碼。形部編碼部分也最多占二碼。形部編碼也可作為一種輸入法單獨使用。
本編碼方案采用雙拼對那些按漢語聲韻互補規(guī)律中沒被合并的多個字母組成的韻母按第一個字母分為a、o、e、i、u區(qū),每區(qū)又按a、o、e、i、u、n、g的順序排列,極具規(guī)律性。惟一需要記憶的是雙拼韻母的合并規(guī)律。在記憶雙拼韻母合并規(guī)律時,只要記住以a、ong結(jié)尾的多個字母的韻母合并,以ang結(jié)尾的4個字母的韻母合并排列就是,ia被ua合并,iang被uang合并,iong被ong合并,以ü開頭的多個字母的韻母均被以u開頭的多個字母的韻母合并,另外ui被v合并,uo被o合并,讀音簡記為“為余”,“我窩”。另外er有多個鍵可排,優(yōu)選排在r鍵上。見附圖1所示。 這時各韻母與字母映射關(guān)系設(shè)定為:
a―a b―uang iang c―uan üan d―ai
e―e f―an g―ang h―ou
i―i j―ong iong k―ei l―en
m―un ün n―ue üe o―o uo p―ing
q―iao r―ie er s―ao t―iu
u―u v―ü ui w―ian x―uai
y―in z―ua ia ;―eng
在鍵盤上的排列如附圖1所示,翹舌音ch、sh、zh仍按英文音序分別用i、u、v表示。
形部編碼也一般由兩個代碼組成,有時可能只有一個代碼。本方案優(yōu)選了國家語委規(guī)定的橫、豎、撇、點、折五種基本筆畫和28個左右的多筆畫部件參與編碼,這五種基本筆畫和28個左右的多筆畫部件被統(tǒng)稱為基本部件,全部選自漢字的偏旁部首,既簡單常見又直觀,并且數(shù)量少,容易記憶。由于國家語委將五種基本筆畫也稱為漢字部件,因此在本發(fā)明中稱五種基本筆畫稱為單筆畫部件,而其他28個左右的優(yōu)選的漢字部件由多個筆畫組成,稱為多筆畫部件。在形部編碼時要優(yōu)先按筆畫多的基本部件編碼,否則由于多筆畫部件可拆分成單筆畫部件,將多筆畫部件拆成單筆畫部件編碼的話,選取多筆畫部件就無意義。
本人在編碼研究中早就認識到,一個漢字是否為左右結(jié)構(gòu)是一目了然的,左右結(jié)構(gòu)的漢字很容易在其產(chǎn)生空隙處將它一分為二,(空隙在左邊部分和右邊部分之間),而上下、包圍結(jié)構(gòu)的漢字有時不易一分為二,甚至有時難以分清一個字是獨體字還是上下結(jié)構(gòu)或包圍結(jié)構(gòu)。除了“川”、“順”這兩個字劃分左右結(jié)構(gòu)有點難度外,建議把“川”看一個整體,但也可不把“川”看成一個整體,本發(fā)明提供兩種不同的分法,以兼容的方式處理,根據(jù)一個漢字是否為左右結(jié)構(gòu)劃分是最簡單易學。因此可將漢字分為左右結(jié)構(gòu)的漢字和非左右結(jié)構(gòu)的漢字,左右結(jié)構(gòu)的漢字按整體結(jié)構(gòu)一分為二,先寫部分為左部,或稱為左邊部分,后寫部分為右部,或稱為右邊部分,左中右結(jié)構(gòu)的漢字,中間部分可劃到右邊部分,也可劃到左邊部分,為降低重碼,中間部分和右邊部分一律劃到右部。
形部編碼的取碼規(guī)則規(guī)定為:左右結(jié)構(gòu)的漢字,按整體結(jié)構(gòu)分為二部分,左半部分簡稱左部,右半部分簡稱右部,分別按書寫順序取該漢字的左部和右部的第一個基本部件的代碼進行編碼,即按該漢字的書寫順序分別取左部和右部的第一個基本部件的代碼進行編碼。非左右結(jié)構(gòu)的漢字,按書寫順序取該漢字的第一個和最末一個基本部件的代碼編碼,只有一個基本部件的漢字,就只取這個基本部件的代碼進行編碼。只有一個基本部件的漢字或者規(guī)定接連兩次取這個基本部件的代碼進行編碼,或者規(guī)定再取該基本部件的第一個筆畫的代碼進行編碼,編碼實例中不這么規(guī)定。編碼時要優(yōu)先按筆畫多的基本部件編碼。
還要特別指出的是,之所以不規(guī)定所有的漢字都按書寫順序取前二個基本部件的代碼或都取首個、末個基本部件的代碼編碼,是因為這樣規(guī)定的話表面上會使形部編碼的取碼規(guī)則顯得更簡單易記,實際上卻會造成大量的重碼,或付出增加大量多筆畫部件的代價。
若在漢字輸入中不停對漢字作是否為左右結(jié)構(gòu),這是比較麻煩的,會影響頭腦反應(yīng),本人在經(jīng)歷長達二十年潛心研究后,并于深夜睡醒,突發(fā)靈感,終于設(shè)計出的其他任何輸入法都沒想到過的取碼思路,那就是“一豎橫向T形選取基本部件”的取碼思路。用這個思路編碼與將漢字分為左右和非左右結(jié)構(gòu)編碼是等效的。具體講,就是按書寫順序取該漢字的第一個基本部件的代碼作為形部編碼的第一碼后,從第一個基本部件的最右端起,用一根與該漢字齊長的大致豎線從左到右橫向推移,去分隔該漢字,若能將整個漢字一分為二,則該豎線就為分隔線,將該漢字分為左邊和右邊兩個部分,簡稱左部、右部,再按書寫順序分別取右部的第一個基本部件的代碼作為形部編碼的第二碼進行編碼,若該豎線從左到右地橫向推移到整個漢字的最右邊,意味著不能用豎線將漢字一分為二,這時按書寫順序取該漢字的最末一個基本部件的代碼作為形部編碼的第二碼編碼。這個方法的核心是:碰到漢字要先按書寫順序取第一個部件的代碼,然后用大致的豎線左右掃描,能分為左部和右部的話,再按書寫順序取右部的第一個部件的代碼,不能將漢字分為左部和右部的話,就按書寫順序取該漢字的最末一個部件的代碼。掃描的方向形似T形,對任何一個漢字都可用一根豎線沿著該漢字上方的一根虛擬的橫線從左到右掃描,試著將該漢字分隔為左部、右部。
為降低重碼,優(yōu)選了氵、艸、口、木、扌、钅、亻、女、讠、忄、月、蟲、土、纟、火、疒、、、山、石、日、王、阝、魚、禾、辶、鳥、貝等偏旁部首,分別用一個字母或別的符號編碼。
橫、豎、撇、點等基本筆畫的出現(xiàn)的頻率較高,為降低重碼,不宜與除個別如“鳥”以外的多筆畫部件排在同一個鍵上,在編碼實例中,將它們分別排到三個標點符號“,”、“.”、“/”、“;”鍵上,用三個標點符號“,”、“.”、“/”、“;”編碼,還可將基本筆畫折排到其他一個標點符號鍵上,用該標點符號編碼,不與多筆畫部件合并排列,考慮到減少鍵位和重碼仍然比較低,在編碼實例中基本筆畫折按其拼音首字母z編碼。折或者排在v上,用v編碼,因為zh用v表示,編碼實例中不這么表示。
為便于記憶,排列多筆畫部件時可按筆畫數(shù)和橫、豎、撇、點、折的次序排列,也按拼音或象形排列,還可按部件的義排列。為便于記憶,排列時主要以多筆畫部件的讀音的拼音首字母或聲母為代碼。為避免重碼,還將若干聲母相同的部件取了出來,改按象形或韻母的方式編碼,如圖2所示。
多筆畫部件、單筆畫部件與字母、標點符號的影射關(guān)系設(shè)定為:
a――钅 b――疒 辶 c――艸 d――氵
e――禾 f――扌 g――貝 鳥 h――火
i――蟲 j――纟 k――口 l――魚
m――木 n――女 o――月 p――阝 q――日 r――亻 s――石 t――土
u――山 v―― w――王 x――忄
y――讠 z――折 ;――點
, ――橫 .――豎 /――撇
根據(jù)設(shè)定關(guān)系將部件分別用相應(yīng)的字母和標點符號編碼。
下面作具體解釋:a的大寫A與钅相似;b是疒的聲母; c是艸的聲母;d是氵的聲母;e是禾的韻母;f似扌;g形似鳥、貝; h是火的聲母;i因為ch排在其上,而ch是蟲的聲母;j是纟的聲母; k是口的聲母;L似魚的左上角;m是木的聲母;n是女的聲母;o似月亮的外形;p似阝;Q似日,就作為日代碼;r是亻的聲母;s是石的拼音的首字母;t是土的聲母;u因為sh排在u上,而sh是山的聲母;v因為zh排在u上,而zh是的聲母;w是王的聲母;x是忄的聲母;Y是讠的聲母;z是和折的聲母;這些字母就分別作為相應(yīng)的基本部件的代碼。“;”作為點的代碼;“,”作為橫的代碼;“.”作為豎的代碼;“/”作為撇的代碼。這種排列方式基本上是按表音排列的,往往將基本部件按其拼音首字母或聲母排列,對拼音首字母相同的少數(shù)多筆畫部件,改按象形或韻母排列。
有的基本部件在作為偏旁部首后,字形會有所改變,但必須視為同類基本部件,用同一字母編碼,這類基本部件如和竹,和足,亻和人,讠和言,钅和金,氵含水、?,扌含手,忄含心,纟含?等,特點是同源?;静考部砂瑐€別與它十分形似的部件,用同一字母編碼。如部件“土”可包含“士”,纟包含幺。
3 編碼實施方式
編碼實例:如“漢”的編碼,聲母是h,韻母為an,代碼是f,音碼部分就為hf,為左右結(jié)構(gòu)漢字,按書寫順序取左部的第一個基本部件氵的代碼編碼,為d,再按書寫順序取右部的第一個基本部件“折”的代碼編碼,為z,于是“漢”的編碼為“hfdz”,音碼采用全拼的話,“漢”的編碼為“handz”。又如“字”的編碼,音碼部分雙拼和雙拼一致,為zi,形部編碼為非左右結(jié)構(gòu)漢字,按書寫順序,取第一個基本部件為基本筆畫點,代碼為“;”,再按書寫順序最末一個基本部件為橫,代碼為“,”,于是“字”的編碼為“zi;,”。又如“封”,全拼為feng,雙拼就為“f;”,形部編碼時,左右結(jié)構(gòu)漢字,左部第一個基本部件為多筆畫部件“土”,代碼為“t”,右部的第一個基本部件的代碼“橫”編碼,代碼為“,”,“封”的編碼就為“f;t,”,音碼部分采用全拼的話,“封”的編碼就為“fengt,”。
注意在形部編碼時取基本部件要遵循取大優(yōu)先的編碼原則,即要優(yōu)先取筆畫多的基本部件編碼,例如“封”字編碼時應(yīng)取多筆畫部件“土”,而不能取第一個單筆畫部件橫,因為“土”的筆畫數(shù)多于“橫”,要按“土”編碼。如“這”字,全拼為zhe,雙拼就為“ve”,形部編碼時,為非左右結(jié)構(gòu)漢字,按書寫順序第一個基本部件為“點”,代碼為“;”,再按書寫順序取最末一個基本部件辶的代碼b,“這”的形部編碼就為“;b”,于是“這”的編碼為“ve;b”,音碼部分采用全拼的話,編碼為“zhe;b”。如“事”字,拼音為shi,sh的雙拼代碼為u,“事”的雙拼就為ui,按書寫順序第一個基本部件為單筆畫部件橫,代碼為“,”,根據(jù)取碼規(guī)則,形部編碼的第二碼要按書寫順序取該漢字的最末一個基本部件豎的代碼“.”編碼,“事”的形部編碼就為“,.”,“事”的整個編碼就為“ui,.”,音碼部分采用全拼的話,編碼為“shi,.”。又如“木”的編碼,雙拼為mu,該漢字只有一個基本部件“木”,代碼為m,“木”的形部編碼就為“m”,于是木的編碼就為mum。
為提高輸入速度,設(shè)計了簡碼。詞語輸入是提高漢字輸入速度的最常用方法,輸入的步驟是:
(a) 二字詞語,取每個字的前二個代碼依次輸入;如“編碼”代碼為bwma。
(b) 三字詞語,取第一字的第一碼、第二字的第一碼、第三字的前兩碼;如“計算機”的代碼為“jsji”。
(c) 四字及以上詞語,取前三個字及最后一個字的第一個代碼依次輸入;如“新疆維吾爾自治區(qū)”,編碼取前三個字及最后一個字“新疆維區(qū)”的第一個代碼“xjwq”。
需要指出的是,在本文中的字母均不分大小寫,字母的大小寫是等效的。
4 輸入過程
利用輸入法軟件,在計算機鍵盤上敲擊某個漢字或詞組的相應(yīng)的編碼所在的鍵,就可完成輸入。一般規(guī)定無重碼且達到規(guī)定碼長的漢字或詞組自動上屏,不足4碼的要按空格鍵,有重碼的單字或詞組根據(jù)提示行選擇。本方案字詞兼容,最多碼長都為4碼。“~”鍵可設(shè)為萬能學習鍵。本方案的形部編碼可作為直接或間接輔助碼,與拼音輸入法配合使用,相兼容。
5 結(jié)束語
本文所介紹的漢字輸入法易學易用,重碼率低,筆順部件符合國家規(guī)范,只要十幾分鐘就能學會,只有二百多對重碼,能夠以每分鐘二三百字的速度高速盲打輸入,又便于聽打。由于形部編碼也可獨立為一種輸入法,所以不懂拼音的人也能較快輸入漢字,可見,這是一種理想的完善的標準的漢字輸入法,徹底解決了漢字輸入法的存在的“簡單不快速、快速不簡單”的世紀難題。希望能夠得到推廣。本方案的音碼部分可采用拼音。為提高輸入速度,可采用雙拼,雖然目前雙拼種類較多,各具優(yōu)缺點,還沒形成統(tǒng)一,但是國家終將推出統(tǒng)一的雙拼,那時本發(fā)明方案的優(yōu)越性將得到更大的體現(xiàn)。