中國(guó)語(yǔ)料庫(kù)研究的歷史與現(xiàn)狀
語(yǔ)言學(xué)的研究必須以語(yǔ)言事實(shí)作為根據(jù),必須詳盡地、大量地占有材料,才有可能在理論上得出比較可靠的結(jié)論。傳統(tǒng)的語(yǔ)言材料的搜集、整理和加工完全是靠手工進(jìn)行的,這是一種枯燥無(wú)味、費(fèi)力費(fèi)時(shí)的工作。計(jì)算機(jī)出現(xiàn)后,人們可以把這些工作交給計(jì)算機(jī)去作,大大地減輕了人們的勞動(dòng)。后來(lái),在這種工作中逐漸創(chuàng)造了一整套完整的理論和方法,形成了一門(mén)新的學(xué)科——語(yǔ)料庫(kù)語(yǔ)言學(xué)(corpus linguistics),并成為了自然語(yǔ)言處理的一個(gè)分支學(xué)科。
語(yǔ)料庫(kù)語(yǔ)言學(xué)主要研究機(jī)器可讀自然語(yǔ)言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語(yǔ)法標(biāo)注、句法語(yǔ)義分析,以及具有上述功能的語(yǔ)料庫(kù)在語(yǔ)言定量分析、詞典編纂、作品風(fēng)格分析、自然語(yǔ)言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用。多年來(lái),機(jī)器翻譯和自然語(yǔ)言理解的研究中, 分析語(yǔ)言的主要方法是句法語(yǔ)義分析。因此,在很長(zhǎng)一段時(shí)間內(nèi),許多系統(tǒng)都是基于規(guī)則的,而根據(jù)當(dāng)前計(jì)算機(jī)的理論和技術(shù)的水平很難把語(yǔ)言學(xué)的各種事實(shí)和理解語(yǔ)言所需的廣泛的背景知識(shí)用規(guī)則的形式充分地表達(dá)出來(lái),這樣,這些基于規(guī)則的機(jī)器翻譯和自然語(yǔ)言理解系統(tǒng)只能在極其受限的某些子語(yǔ)言(sub- language)中獲得一定的成功。為了擺脫困境,自然語(yǔ)言處理的研究者者們開(kāi)始對(duì)大規(guī)模的非受限的自然語(yǔ)言進(jìn)行調(diào)查和統(tǒng)計(jì),以便采用一種基于統(tǒng)計(jì)的模型來(lái)處理大量的非受限語(yǔ)言。不言而喻,語(yǔ)料庫(kù)語(yǔ)言學(xué)將有可能在大量語(yǔ)言材料的基礎(chǔ)上來(lái)檢驗(yàn)傳統(tǒng)的理論語(yǔ)言學(xué)基于手工搜集材料的方法所得出的各種結(jié)論,從而使我們對(duì)于自然語(yǔ)言的各種復(fù)雜現(xiàn)象獲得更為深刻全面的認(rèn)識(shí)。
本文首先簡(jiǎn)要介紹國(guó)外語(yǔ)料庫(kù)的發(fā)展情況,然后,比較詳細(xì)地介紹中國(guó)語(yǔ)料庫(kù)的發(fā)展情況和主要的成績(jī),使我們對(duì)于語(yǔ)料庫(kù)研究得到一個(gè)鳥(niǎo)瞰式的認(rèn)識(shí)。
一、國(guó)外語(yǔ)料庫(kù)概況
現(xiàn)在,美國(guó)Brown大學(xué)建立了BROWN語(yǔ)料庫(kù)(布朗語(yǔ)料庫(kù)),英國(guó)Lancaster大學(xué)與挪威Oslo大學(xué)與Bergen大學(xué)聯(lián)合建立了 LOB 語(yǔ)料庫(kù)。歐美各國(guó)學(xué)者利用這兩個(gè)語(yǔ)料庫(kù)開(kāi)展了大規(guī)模的研究,其中最引人注目的是對(duì)語(yǔ)料庫(kù)進(jìn)行語(yǔ)法標(biāo)注的研究。他們?cè)O(shè)計(jì)了基于規(guī)則的自動(dòng)標(biāo)注系統(tǒng) TAGGIT 來(lái)給布朗語(yǔ)料庫(kù)的 100 萬(wàn)詞的語(yǔ)料作自動(dòng)標(biāo)注,正確率為 77%. 他們還設(shè)計(jì)了 CLAWS 系統(tǒng)來(lái)給 LOB 語(yǔ)料庫(kù)的100萬(wàn)詞的語(yǔ)料作自動(dòng)標(biāo)注,根據(jù)統(tǒng)計(jì)信息來(lái)建立算法,自動(dòng)標(biāo)注正確率達(dá) 96%, 比基于規(guī)則的 TAGGIT 系統(tǒng)提高了將近 20%. 最近他們同時(shí)考察三個(gè)相鄰標(biāo)記的同現(xiàn)頻率,使自動(dòng)語(yǔ)法標(biāo)注的正確率達(dá)到 99.5%。這個(gè)指標(biāo)已經(jīng)超過(guò)了人工標(biāo)注所能達(dá)到的最高正確率。
現(xiàn)在,國(guó)外的主要語(yǔ)料庫(kù)還有:
London-Lund口語(yǔ)語(yǔ)料庫(kù):收篇目87篇,每篇5000詞,共為43.4萬(wàn)詞,有詳細(xì)的韻律標(biāo)注(prosodic marking)。
AHI語(yǔ)料庫(kù):美國(guó)Heritage出版社為編纂Heritage詞典而建立,有400萬(wàn)詞。
OTA牛津文本檔案庫(kù)(Oxford Text Archive):英國(guó)牛津大學(xué)計(jì)算中心建立,有10億字節(jié)。
BNC英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus):1995年正式發(fā)布,使用TEI編碼(Text Encoding Initiative)和SGML通用標(biāo)準(zhǔn)置標(biāo)語(yǔ)言的國(guó)際標(biāo)準(zhǔn)(The Standard Generalized Mark up Language, ISO 8879, 1986年公布)。
ACL/DCI美國(guó)計(jì)算語(yǔ)言學(xué)學(xué)會(huì)數(shù)據(jù)采集計(jì)劃:美國(guó)計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(The association for Computational Linguistics, ACL)倡議的數(shù)據(jù)采集計(jì)劃(Data Collection Initiative, DCI),其宗旨是向非贏利的學(xué)術(shù)團(tuán)體提供語(yǔ)料,以免除費(fèi)用和版權(quán)的困擾,用標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言SGML統(tǒng)一置標(biāo),以便于數(shù)據(jù)交換。
LDC語(yǔ)言數(shù)據(jù)聯(lián)合會(huì) (Linguistic data Consortium): 設(shè)在美國(guó)賓州大學(xué),實(shí)行會(huì)員制,有163 個(gè)語(yǔ)料庫(kù) (包括Text的以及 speech的),共享語(yǔ)言資源。
RWC日語(yǔ)語(yǔ)料庫(kù):日本新情報(bào)處理開(kāi)發(fā)機(jī)構(gòu)RWCP研制,包括《每日新聞》4年的全文語(yǔ)料,語(yǔ)素標(biāo)注量達(dá)1億條。
亞洲各語(yǔ)種對(duì)譯作文語(yǔ)料庫(kù):日本國(guó)立國(guó)語(yǔ)研究所研制,中野洋主持,北京外國(guó)語(yǔ)大學(xué)參加。
為了推進(jìn)語(yǔ)料庫(kù)研究的發(fā)展,歐洲成立了TELRI和ELRA等專(zhuān)門(mén)學(xué)會(huì)。TELRI 是跨歐洲語(yǔ)言資源基礎(chǔ)建設(shè)學(xué)會(huì)(Trans-European Language Resources Infrastructure )的首字母縮寫(xiě),John Sinclair擔(dān)任主席,由歐洲共同體提供經(jīng)費(fèi),其目的在于建立歐洲諸語(yǔ)言的語(yǔ)料庫(kù),現(xiàn)已經(jīng)建成柏拉圖(Plato)的《理想國(guó)》(Politeia) 多語(yǔ)語(yǔ)料庫(kù),建立了計(jì)算工具和資源的研究文檔TRACTOR (Research Archive of Computational Tools and Resources),正在語(yǔ)料庫(kù)的基礎(chǔ)上建立歐洲語(yǔ)言詞庫(kù)EUROVOCA。TELRI每年召開(kāi)一次Seminar 。最近的一次Seminar在Lubljana, (Slovenia)召開(kāi)(22.September – 26.September.2000),主題是從語(yǔ)料庫(kù)中自動(dòng)抽取知識(shí)(Automatic knowledge extraction)。ELRA是歐洲語(yǔ)言資源學(xué)會(huì) (European Language Resources Associationi)的首字母縮寫(xiě),由Zampolli擔(dān)任主席, ELRA負(fù)責(zé)搜集、傳播語(yǔ)言資源并使之商品化,對(duì)于語(yǔ)言資源的使用提供法律支持。ELRA建立了歐洲語(yǔ)言資源分布服務(wù)處ELDA (European Language resources Distribution Agency),負(fù)責(zé)研制并推行ELRA的戰(zhàn)略和計(jì)劃。ELRA還組織語(yǔ)言資源和評(píng)價(jià)國(guó)際會(huì)議LREC (Language Resources & Evaluation Congress), 每?jī)赡暌淮?。第一次?huì)議于1998年在西班牙的Grenade舉行;第二次會(huì)議在Athens(Greece)召開(kāi)(31.May – 02.June.2000),第三次會(huì)議于2002年在西班牙的Las Palmas de Gran Canaria 召開(kāi)(27.May – 02.June 2002)。
二、我國(guó)語(yǔ)料庫(kù)的發(fā)展概況
(一)早期的漢語(yǔ)語(yǔ)料庫(kù)
1、我國(guó)語(yǔ)料庫(kù)研究的先河
在我國(guó),從20世紀(jì)20年代開(kāi)始,就有學(xué)者建立文本的語(yǔ)料庫(kù),采用統(tǒng)計(jì)的方法來(lái)研究漢字的頻率,其目的在于制定基礎(chǔ)漢字的字表。當(dāng)然,這樣的語(yǔ)料庫(kù)不是機(jī)器可讀的,規(guī)模也很小,它是現(xiàn)代語(yǔ)料庫(kù)的雛形,開(kāi)我國(guó)語(yǔ)料庫(kù)研究的先河,在我國(guó)語(yǔ)料庫(kù)的發(fā)展史上是功不可沒(méi)功的。著名教育學(xué)家陳鶴琴為了教學(xué)的目的,在對(duì)語(yǔ)料統(tǒng)計(jì)的基礎(chǔ)上,編寫(xiě)了《語(yǔ)體文應(yīng)用字匯》,于1925年完成,于1928年由商務(wù)印書(shū)館出版,陳書(shū)前有“緒論”,說(shuō)明“ 中文應(yīng)用字匯”曾有多種,其中包括P.克侖茨(Pastor P. Kronz)的研究和他自己的編寫(xiě)的《常用四千字表》。陳鶴琴做過(guò)兩次統(tǒng)計(jì),第一次統(tǒng)計(jì)使用了六種材料,包含554,478個(gè)漢字的語(yǔ)料,得不同漢字 4261個(gè);第二次使用包含34,818個(gè)漢字的語(yǔ)料,得出與4261個(gè)漢字相異的漢字458個(gè)。第二次統(tǒng)計(jì)所得的成果毀于戰(zhàn)火,在《語(yǔ)體文應(yīng)用字匯》中印出的只是第一次統(tǒng)計(jì)的結(jié)果。
陳鶴琴用的語(yǔ)料分如下六類(lèi):
兒童用書(shū):127,293字;
報(bào)刊(以通俗報(bào)刊為主):153,344字;
婦女雜志:90,142字;
小學(xué)生課外作品:51,807字;
古今小說(shuō):71,267字;
雜類(lèi):60,625字。
書(shū)末附有“字?jǐn)?shù)次數(shù)對(duì)照表”,這是按漢字在語(yǔ)料中出現(xiàn)的絕對(duì)頻率排列的字表。
我國(guó)著名教育家陶行知先生為《語(yǔ)體文應(yīng)用字匯》寫(xiě)了序言。序言中說(shuō):“他們(指“近代教育家”)對(duì)于一門(mén)一門(mén)的功課,甚至一篇文章,一個(gè)算題,一項(xiàng)運(yùn)動(dòng),都要依據(jù)目標(biāo)去問(wèn)他們的效用。他們的主張是要所學(xué)的,即是所用的。......到了后來(lái)他們連學(xué)生學(xué)的字也要審查起來(lái)了。學(xué)生現(xiàn)在所學(xué)的字,個(gè)個(gè)字都是有用的字嗎?自從這個(gè)問(wèn)題發(fā)生就有好幾位學(xué)者開(kāi)始研究應(yīng)用字匯。我國(guó)方面也有幾位先生研究這個(gè)問(wèn)題,其中以陳鶴琴先生的研究最有系統(tǒng)。他和他的助理九人先后費(fèi)了二三年工夫,檢查了幾十萬(wàn)字的語(yǔ)體文,編成這本《語(yǔ)體文應(yīng)用字匯》。這冊(cè)報(bào)告未付印以前已經(jīng)做了《平民千子課》用字的根據(jù)。將來(lái)小學(xué)課本用字當(dāng)然也可以拿他來(lái)做一個(gè)很好的根據(jù)。雖然不能十分完備,但我想這本字匯對(duì)于成人及國(guó)民教育一定是有很大的貢獻(xiàn)的。”(見(jiàn)陳鶴琴《語(yǔ)體文應(yīng)用字匯》,商務(wù)印書(shū)館,1928年)。
2、早期的機(jī)器可讀語(yǔ)料庫(kù)
從1979年以來(lái),中國(guó)就開(kāi)始進(jìn)行機(jī)器可讀語(yǔ)料庫(kù)的建設(shè),早期在中國(guó)建立的主要的機(jī)器可讀語(yǔ)料庫(kù)有:
漢語(yǔ)現(xiàn)代文學(xué)作品語(yǔ)料庫(kù)(1979年),527萬(wàn)字,武漢大學(xué)。
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1983年),2000萬(wàn)字,北京航天航空大學(xué)。
中學(xué)語(yǔ)文教材語(yǔ)料庫(kù)(1983年),106萬(wàn)8千字,北京師范大學(xué)。
現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)(1983年),182萬(wàn)字,北京語(yǔ)言學(xué)院。
我們以北京語(yǔ)言學(xué)院的漢語(yǔ)詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)來(lái)說(shuō)明早期語(yǔ)料庫(kù)的情況。
1979年,北京語(yǔ)言學(xué)院(現(xiàn)在改名為“北京語(yǔ)言文化大學(xué)”)針對(duì)對(duì)外漢語(yǔ)教學(xué)的特點(diǎn),把“現(xiàn)代漢語(yǔ)詞匯統(tǒng)計(jì)研究”作為重點(diǎn)科研課題,開(kāi)始進(jìn)行規(guī)模較大的漢語(yǔ)單詞的頻率統(tǒng)計(jì)研究。
這項(xiàng)研究工作,采用人工與計(jì)算機(jī)相結(jié)合的方式,對(duì)179篇樣文、182萬(wàn)字的語(yǔ)料進(jìn)行了詞語(yǔ)切分、詞頻統(tǒng)計(jì)和數(shù)據(jù)分析的工作,統(tǒng)計(jì)的總詞匯量為 1,315,752詞次,含不同單詞31,159個(gè),其中包括十年制語(yǔ)文課本(52萬(wàn)字,374,654詞次)的字頻和詞頻的定量分析,統(tǒng)計(jì)結(jié)果編成《現(xiàn)代漢語(yǔ)頻率詞典》出版。
他們選取的語(yǔ)料可以分為如下四類(lèi):
報(bào)刊政論:44萬(wàn)字,占語(yǔ)料總量的24.4%。
科技和科普文章:29萬(wàn)字,占語(yǔ)料總量的19.8%。
口語(yǔ)材料:20萬(wàn)字,占語(yǔ)料總量的11.1%。
文學(xué)作品:89萬(wàn)字,占語(yǔ)料總量的48.7%。
整個(gè)語(yǔ)料共182萬(wàn)字。這樣容量的語(yǔ)料,在當(dāng)時(shí)已經(jīng)是比較大的語(yǔ)料庫(kù)了。
根據(jù)數(shù)理統(tǒng)計(jì)的原理,所統(tǒng)計(jì)的語(yǔ)料的總體個(gè)數(shù)必須達(dá)到一定足夠的數(shù)量,才能保證統(tǒng)計(jì)結(jié)果符合客觀實(shí)際?!冬F(xiàn)代漢語(yǔ)頻率詞典》的編者認(rèn)為,如果常用詞的出現(xiàn)頻率不低于百萬(wàn)分之一,也就是在一百萬(wàn)次的場(chǎng)合,常用詞的出現(xiàn)機(jī)會(huì)至少應(yīng)該有一次,就可以保證統(tǒng)計(jì)結(jié)果的客觀性?!冬F(xiàn)代漢語(yǔ)頻率詞典》實(shí)際上統(tǒng)計(jì)了 182萬(wàn)個(gè)漢字的語(yǔ)料,因此,其抽樣是合理的、經(jīng)濟(jì)的、適度的。
但是,國(guó)外在1971年進(jìn)行英語(yǔ)詞頻統(tǒng)計(jì)時(shí),所用語(yǔ)料量有5,088,721個(gè)詞,包含不同單詞86,741個(gè),統(tǒng)計(jì)規(guī)模比《現(xiàn)代漢語(yǔ)頻率詞典》大得多。由于語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展,語(yǔ)料庫(kù)的容量不斷擴(kuò)大,現(xiàn)在,數(shù)千萬(wàn)詞甚至于數(shù)億詞的語(yǔ)料庫(kù)已經(jīng)不算少見(jiàn)。與當(dāng)前語(yǔ)料庫(kù)的容量比較起來(lái),《現(xiàn)代漢語(yǔ)頻率詞典》所依據(jù)的語(yǔ)料規(guī)模是小了一些。不過(guò),盡管這樣,《現(xiàn)代漢語(yǔ)頻率詞典》在詞頻統(tǒng)計(jì)方面取得的成績(jī)?nèi)匀皇呛艽蟮摹?/p>
這次詞頻統(tǒng)計(jì)得出了如下詞表:
1、按字母音序排列的頻率詞表:共列出常用詞16,593個(gè),按音序排列,從中可以看出:
漢語(yǔ)中以Z、S、J、Y開(kāi)頭的詞較多:以Z開(kāi)頭的詞有1457個(gè),占8.78%;以S開(kāi)頭的詞有1327個(gè),占7.99%;以J開(kāi)頭的詞有1243個(gè),占7.49%;以Y開(kāi)頭的詞有1205個(gè),占7.26%。
漢語(yǔ)中以E、O開(kāi)頭的詞很少:以E開(kāi)頭的詞只有64個(gè),占0.38%;以O(shè)開(kāi)頭的詞只有13個(gè),占0.07%。
2、按頻率遞減的順序排列的詞表:在詞表中,最常用詞的使用頻率相當(dāng)高,前100個(gè)詞占了語(yǔ)料總量的40%以上,前500個(gè)詞占了語(yǔ)料總量的70% 以上,前2562個(gè)詞占了語(yǔ)料總量的85%,詞表共有不同單詞31,159個(gè),這些詞占了語(yǔ)料總量的100%。從前100個(gè)詞到前500個(gè)詞,不同的單詞數(shù)增加了400個(gè),百分比就增加了30%,而從前2562個(gè)詞到前31,159個(gè)詞,不同單詞數(shù)增加了30,597個(gè),百分比材增加了15%。由此可見(jiàn),高頻詞對(duì)于百分比的增加有著很大的作用,而低頻詞對(duì)于百分比的增加,其作用是微乎其微的,往往要大量的低頻詞,才能使百分比增加一點(diǎn)點(diǎn)。
3、按使用度遞降順序排列的詞表:
使用度是1954年尤蘭德(Juilland)和洛德西蓋(Chang-Rodsiguez)在計(jì)算西班牙語(yǔ)的詞匯頻率時(shí)提出的一個(gè)新概念,他們并且也提出了計(jì)算使用度的數(shù)學(xué)公式,根據(jù)這個(gè)使用度公式計(jì)算出的使用度,可以綜合地反映單詞在出現(xiàn)頻率和分布率兩方面的情況。
他們根據(jù)使用度的計(jì)算公式,計(jì)算了單詞的使用度,并給出了按使用度遞降順序排列的詞表。這個(gè)詞表又分為兩個(gè)表:使用度較高的前8000詞的詞表,使用度較低的詞語(yǔ)單位表。
在使用度較高的前8000詞的詞表中,使用度在20以上的詞共4186個(gè),其詞次累計(jì)占了全部語(yǔ)料(314,404詞次)的90.1%。這說(shuō)明,《現(xiàn)代漢語(yǔ)頻率詞典》所統(tǒng)計(jì)的語(yǔ)料中,有十分之九是用這4186個(gè)詞寫(xiě)成的,這些詞可以成為“常用詞”的候選對(duì)象。
在使用度較低的詞語(yǔ)單位表中,收入了使用度為5及小于5的詞22,446個(gè),這些詞一般也都是低頻詞。在這種情況下,如果有的詞的使用度和頻率相匹配,則說(shuō)明這些詞的分布還是比較均勻的,這些詞可以作為“通用詞”的候選對(duì)象。
4、按語(yǔ)體分類(lèi)的高頻詞表,又可再分為4個(gè)表:
a.報(bào)刊政論語(yǔ)體的前4000詞的詞表:本表共統(tǒng)計(jì)34種語(yǔ)料,29萬(wàn)詞次(44萬(wàn)字),有不同詞條數(shù)12,107個(gè)。前4000個(gè)詞累計(jì)頻率94.77%。其中一些政治詞語(yǔ),如“唯心、黨派”等,在本表中出現(xiàn)頻率都比較高,反映了政論語(yǔ)體的特點(diǎn)。
b.科普語(yǔ)體的前4000詞的詞表:本表共統(tǒng)計(jì)21種語(yǔ)料,20萬(wàn)詞次(29萬(wàn)字),有不同詞條12,364個(gè)。前4000個(gè)詞累計(jì)頻率92.27%。其中一些科技用語(yǔ),如“纖維、合成”等,在本表中出現(xiàn)頻率都比較高,反映了科普語(yǔ)體的特點(diǎn)。
c.生活口語(yǔ)中前4000詞的詞表:本表共統(tǒng)計(jì)18種語(yǔ)料,16萬(wàn)詞次(20萬(wàn)字),有不同詞條8263個(gè)。前4000個(gè)詞的累計(jì)頻率為 96.65%。從統(tǒng)計(jì)數(shù)字可以看出,口語(yǔ)語(yǔ)體的用詞量比前兩種語(yǔ)體要少三分之一,但高頻詞出現(xiàn)的詞次卻相當(dāng)多,前1000個(gè)高頻詞的出現(xiàn)頻率比a表高出 6%,比b表高出12%。這意味著,口語(yǔ)語(yǔ)體的用詞量雖然不大,但是它們的出現(xiàn)次數(shù)對(duì)語(yǔ)料的覆蓋面卻相當(dāng)大。
d.文學(xué)作品類(lèi)前4000高頻詞的詞表:本表共統(tǒng)計(jì)106種語(yǔ)料,66萬(wàn)詞次(89萬(wàn)字),有不同詞條23,622個(gè)。前4000個(gè)高頻詞累計(jì)頻率為90.63%。這說(shuō)明文學(xué)作品的用詞量大,但是為了追求用詞的多樣化,即使是高頻詞的出現(xiàn)頻率也比較低,這反映了文學(xué)作品詞匯豐富多采的特點(diǎn)。
早期的這些語(yǔ)料庫(kù)的具有如下特點(diǎn):
①多數(shù)是采用手工鍵入的方式建立的,耗時(shí)耗力,缺乏規(guī)范,規(guī)模較小,重用性差。為了建設(shè)這樣的語(yǔ)料庫(kù),需要付出艱辛的勞動(dòng),著名專(zhuān)家劉源教授(北京航空航天大學(xué)計(jì)算機(jī)系教授)在2000萬(wàn)字的語(yǔ)料庫(kù)建設(shè)中積勞成疾,健康受到嚴(yán)重的損害。我國(guó)語(yǔ)料庫(kù)的早期建設(shè)者的敬業(yè)精神是值得我們尊敬的。
②發(fā)現(xiàn)了漢語(yǔ)文本切分歧義的兩種類(lèi)型:北航和北語(yǔ)的語(yǔ)料庫(kù)進(jìn)行了詞頻統(tǒng)計(jì),北航還進(jìn)行了自動(dòng)分詞研究,發(fā)現(xiàn)了兩種不同的分詞歧義字段(Ambiguous Segmentation Strings, ASSs):交集型歧義字段和多義組合型歧義字段。
交集型歧義切分字段:例如:“地面積”可能切為“地面”或“面積”,“面”成為交段,從而產(chǎn)生歧義。
多義組合型歧義切分字段:例如:“馬上”本身是一個(gè)詞,但也可以切為“馬”+“上”兩個(gè)單詞,而“馬上”與“馬”+“上”的含義不同。
梁南元(1987)對(duì)一個(gè)48092字的自然科學(xué)、社會(huì)科學(xué)樣本進(jìn)行了統(tǒng)計(jì):交集型切分歧義518個(gè), 多義組合型切分歧義42個(gè)。據(jù)此推斷,中文文本中切分歧義的出現(xiàn)頻度約為1.2次/100字,交集型切分歧義與多義組合型切分歧義的出現(xiàn)比例約為12:1。
③建立了初步的分詞規(guī)范:1990年10月,在計(jì)算機(jī)界和語(yǔ)言學(xué)界的共同努力下,我國(guó)制定了國(guó)家標(biāo)準(zhǔn)GB-13715《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》,這個(gè)國(guó)家標(biāo)準(zhǔn)提出了確定漢語(yǔ)單詞切分的原則,是漢語(yǔ)書(shū)面語(yǔ)自動(dòng)切詞的重要依據(jù)。
(二)國(guó)家級(jí)語(yǔ)料庫(kù)的建設(shè)
1991年,國(guó)家語(yǔ)言文字工作委員會(huì)開(kāi)始建立國(guó)家級(jí)的大型漢語(yǔ)語(yǔ)料庫(kù),以推進(jìn)漢語(yǔ)的詞法、句法、語(yǔ)義和語(yǔ)用的研究,同時(shí)也為中文信息處理的研究提供語(yǔ)言資源,計(jì)劃其規(guī)模將達(dá)7000萬(wàn)漢字,當(dāng)時(shí)宣稱(chēng),這將成為世界上最大的漢語(yǔ)語(yǔ)料庫(kù)。這個(gè)語(yǔ)料庫(kù)是均衡語(yǔ)料庫(kù)。其語(yǔ)料要經(jīng)過(guò)精心的選材,語(yǔ)料的選材應(yīng)受到如下限制:
①時(shí)間的限制:語(yǔ)料描述具有歷時(shí)特征,著重描述共時(shí)特征。選取從1919年到當(dāng)代的語(yǔ)料(分為5個(gè)時(shí)期),以1977年以后的語(yǔ)料為主。
②文化的限制:主要選取受過(guò)中等文化教育的普通人能理解的語(yǔ)料。
③使用領(lǐng)域的限制: 語(yǔ)料由人文與社會(huì)科學(xué)類(lèi)、自然科學(xué)類(lèi)和綜合類(lèi)3大部分,人文和社會(huì)科學(xué)再分為8大類(lèi)29小類(lèi),自然科學(xué)再分為6大類(lèi),綜合類(lèi)再分為2大類(lèi)。主要選取通用的語(yǔ)料,優(yōu)先選取社會(huì)科學(xué)和人文科學(xué)的語(yǔ)料。
這個(gè)語(yǔ)料庫(kù)現(xiàn)在只完成了2000萬(wàn)字語(yǔ)料的輸入和校對(duì)工作,尚未進(jìn)行進(jìn)一步的加工,還是“生語(yǔ)料庫(kù)”,因而還不能提供社會(huì)使用。由于主要靠手工錄入,人工勞動(dòng)的成本很高,據(jù)說(shuō)單是建立生語(yǔ)料庫(kù),耗資約200萬(wàn)人民幣。
為了加工這個(gè)國(guó)家級(jí)語(yǔ)料庫(kù),國(guó)家社科基金設(shè)立了社科重大項(xiàng)目“信息處理用現(xiàn)代漢語(yǔ)詞匯研究”,希望利用該項(xiàng)目的成果來(lái)加工這個(gè)語(yǔ)料庫(kù)。該課題分10個(gè)子課題:
①信息處理用現(xiàn)代漢語(yǔ)分詞詞表
②歧義切分與專(zhuān)有名詞識(shí)別軟件
③詞的構(gòu)造研究
④現(xiàn)代漢語(yǔ)詞類(lèi)及標(biāo)記集規(guī)范
⑤漢語(yǔ)詞類(lèi)兼類(lèi)研究
⑥現(xiàn)代漢語(yǔ)的語(yǔ)法屬性描述研究
⑦現(xiàn)代漢語(yǔ)述語(yǔ)動(dòng)詞機(jī)器詞典和槽關(guān)系研究
⑧漢語(yǔ)知識(shí)詞典建立及詞匯內(nèi)部語(yǔ)義網(wǎng)絡(luò)描述研究
⑨漢語(yǔ)文本短語(yǔ)結(jié)構(gòu)的人工標(biāo)注
⑩常用動(dòng)詞語(yǔ)義特征及詞義搭配研究
現(xiàn)在,該課題已經(jīng)結(jié)項(xiàng),國(guó)家語(yǔ)委語(yǔ)言文字應(yīng)用研究所成立了“漢語(yǔ)語(yǔ)料庫(kù)深加工”的課題組,準(zhǔn)備對(duì)國(guó)家級(jí)語(yǔ)料庫(kù)的2000萬(wàn)字的核心語(yǔ)料進(jìn)行深加工,逐步把這個(gè)生語(yǔ)料庫(kù)變?yōu)槭煺Z(yǔ)料庫(kù)。
(三)大規(guī)模真實(shí)文本語(yǔ)料庫(kù)
1992年以來(lái),大量的語(yǔ)料庫(kù)在中國(guó)研究中文信息處理的單位建立起來(lái),語(yǔ)料庫(kù)成為了研究中文信息處理的基本語(yǔ)言資源。沒(méi)有語(yǔ)料庫(kù)的支持,中文信息處理的研究將會(huì)寸步難行。建設(shè)大規(guī)模真實(shí)文本語(yǔ)料庫(kù)的單位有:《人民日?qǐng)?bào)》光盤(pán)數(shù)據(jù)庫(kù),北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,北京語(yǔ)言文化大學(xué),清華大學(xué),山西大學(xué),上海師范大學(xué),北京郵電大學(xué),香港城市理工大學(xué),東北大學(xué),哈爾濱工業(yè)大學(xué),中國(guó)科學(xué)院軟件研究所,中國(guó)科學(xué)院自動(dòng)化所,北京外國(guó)語(yǔ)大學(xué)日本學(xué)研究中心,臺(tái)灣中央研究院語(yǔ)言研究所(籌備處)。下面分別加以介紹。
1、《人民日?qǐng)?bào)》光盤(pán)數(shù)據(jù)庫(kù)
收集該報(bào)48年的全部文字和圖像內(nèi)容,公開(kāi)發(fā)行。
2、北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所
該研究所建立了現(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù),與富士通公司(Fujitsu)合作,加工2700萬(wàn)字的《人民日?qǐng)?bào)》語(yǔ)料庫(kù),加工項(xiàng)目包括詞語(yǔ)切分、詞性標(biāo)注、專(zhuān)有名詞(專(zhuān)有名詞短語(yǔ))標(biāo)注。還要對(duì)多音詞注音。
示例1:古城/n 雖/c 遭/v 破壞/v ,/w 但/c 它/r 留下/v 了[le5]/u 契丹族/nz 和[he2] 各[ge4]/r 民族/n ,/w 特別/d 是/v 漢族/nz 勞動(dòng)/vn 人民/n 共同/d 開(kāi)拓/v 祖國(guó)/n 北疆/s ,/w 創(chuàng)造/v 我國(guó)/r 歷史/n 文明/n 的[de5]/u 足跡/n 。/w
示例2:19970310-01-002-0020/m [全國(guó)/n 人大/j]nt 代表/n 、/w [陜西/ns 西安/ns 美術(shù)/n 學(xué)院/n]nt 名譽(yù)/n 院長(zhǎng)/n 劉/nr 文西/nr 利用/v 會(huì)議/n 休息/vn 時(shí)間/n 創(chuàng)作/v 了/u 鄧/nr 小平/nr 畫(huà)像/n 《/w 與/p 人民/n 同/d 在/v 》/w 。/w 畫(huà)像/n 表現(xiàn)/v 了/u 鄧/nr 小平/nr 同志/n 祝愿/v 祖國(guó)/n 繁榮/a 、/w 人民/n 幸福/a 的/u 偉大/a 胸懷/n 。/w (/w 新華社/nt 記者/n 齊/nr 鐵硯/nr 攝/v )/w
示例3:19970310-01-003-0020/m 世紀(jì)/n 之/u 交/Ng ,/w 中華/nz 民族/n 正/d 迎來(lái)/v 前所未有/i 的/u 發(fā)展/vn 機(jī)遇/n 。/w 十幾/m 年/q 來(lái)/f ,/w 改革/v 開(kāi)放/v 的/u 不斷/d 深入/v ,/w 黨/n 的/u 民族/n 政策/n 的/u 貫徹/vn 落實(shí)/vn ,/w 全國(guó)/n 人民/n 的/u 大力/d 支援/v ,/w 使/v 我國(guó)/r 民族/n 地區(qū)/n 經(jīng)濟(jì)/n 和/c 社會(huì)/n 發(fā)展/vn 步伐/n 大大/d 加快/v 。/w 加倍/d 珍視/v 和/c 繼續(xù)/vd 發(fā)展/v 這種/r 好/a 的/u 局面/n ,/w 鞏固/v 發(fā)展/v 各/r 民族/n 大/a 團(tuán)結(jié)/an ,/w 成為/v 全國(guó)/n 各族/r 人民/n 的/u 共同/b 愿望/n ,/w 也是/v 在/p 京/j 參加/v “/w 兩會(huì)/j ”/w 的/u 代表/n 和/c 委員/n 的/u 一致/a 心愿/n 。/w
經(jīng)富士通公司檢驗(yàn),標(biāo)注的正確率很高。
他們制訂《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工手冊(cè)——詞語(yǔ)切分與詞性標(biāo)注》。切分規(guī)范中,主要規(guī)定現(xiàn)代漢語(yǔ)的切詞原則,即什么樣的漢字組合可以為一個(gè)切分單位。他們采用切分和標(biāo)注相結(jié)合的原則來(lái)建立規(guī)范,在漢語(yǔ)中,像“雙音節(jié)動(dòng)詞+單音節(jié)名詞”通常構(gòu)成新的名詞,對(duì)于這個(gè)新的名詞,即使在詞典中沒(méi)有登錄,也應(yīng)該把它們處理為一個(gè)切分單位。因此,在該規(guī)范中,給出了一些基于詞性描述的構(gòu)詞規(guī)律,規(guī)定了什么樣的組合可以處理為一個(gè)切分單位,并給出了新組合的詞的詞性標(biāo)記。在標(biāo)注規(guī)范中,規(guī)定了一般詞性的標(biāo)注規(guī)范和專(zhuān)有名詞的規(guī)范。
此外,他們還建立了一個(gè)小型漢語(yǔ)樹(shù)庫(kù):與新加坡國(guó)立大學(xué)計(jì)算機(jī)系合作,內(nèi)容為新加坡中學(xué)語(yǔ)文教材(1995年),所有的句子都分析為樹(shù)形圖。
示例:
[zj [dj 富士山/n [vp 是/v [np 日本/n 的/u [np [mp 一/m 座/q ] 活火山/n ]]]] 。/w ] [zj [fj [fj [dj 山峰/n [vp 終年/d 積雪/v ]] ,/w [dj 云霧/n 圍繞/v ]] ,/w [vp 只有/d [vp [pp 在/p [np [dj 空氣/n 干燥/a ] 的/u [np [np 秋/n 冬/n ] [np 兩/m 季/Ng ]]]] ,/w [vp 才/d [vp 能/v [vp [vbar 看/v 清/a ] [np 它/r 的/u 全貌/n ]]]]]]] 。/w ]
[zj [fj [dj [np [vbar 多/d 變/v ] 的/u 氣候/n ] ,/w [vp 更/d [vp [pp 為/p 它/r ] [vp [vbar 增添/v 了/u ] [np 神秘/a 的/u 色彩/n ]]]]] ,/w [vp 甚至/d [vp 使/v 它/r [vp [vbar 孕育/v 了/u ] [np 許多/m [np 美麗/a 的/u 神話(huà)/n ]]]]]] 。/w ]
[zj [dj [np 富士山/n 的/u 景色/n ] ,/w [dj 四季/t 不同/a ]] 。/w ]
[zj [fj [fj [fj [fj 春天/t ,/w [fj [dj 山頂/s [vp 還/d [vp [vbar 戴/v 著/u ] [np 雪/n 帽子/n ]]]] ,/w [fj [dj [dj [np 山腰/n 的/u 雪/n ] [vp 卻/d 溶化/v ]] 了/y ] ,/w [fj [dj [np 細(xì)碎/a 的/u [np 小/a 花/n ]] [vp 開(kāi)遍/v 山坡/n ]] ,/w [vp [vbar 遠(yuǎn)/a 看/v ] [vp 象/v [np [mp 一/m 片/q ] [np 紫色/n 的/u 海洋/n ]]]]]]]] ,/w [fj 夏天/t ,/w [fj [dj [np [np 殘/Vg 雪/n ] 與/c [np 山/n 花/n ]] [vp 倒映/v [sp 湖/n 中/f ]]] ,/w [vp 充滿(mǎn)/v 詩(shī)情畫(huà)意/n ]]]] ,/w [fj 秋天/t ,/w [fj [dj [np [np [np 滿(mǎn)/a 山/n ] 紅葉/n ] 與/c [np 雪/n 影/Ng ]] 輝映/v ] ,/w [vp 象/v [np 個(gè)/q [np 嬌羞/a 的/u 姑娘/n ]]]]]] ,/w [fj [dj 冬天/t [dj 則/c [vp 是/v [np [ap 純/a 白/a ] 的/u [mp 一/m 片/q ]]]]] ,/w [ap 莊嚴(yán)/a 而/c 圣潔/a ]]] 。/w ]
北大語(yǔ)料庫(kù)研究的特色是:
①規(guī)模大:加工成的熟語(yǔ)料已經(jīng)達(dá)到2000萬(wàn)字,不久將達(dá)到2700萬(wàn)字,國(guó)內(nèi)尚無(wú)先例。
②加工深:不僅做了切分和詞性標(biāo)注,而且部分語(yǔ)料還進(jìn)行了短語(yǔ)結(jié)構(gòu)分析,建立了樹(shù)庫(kù)。在大規(guī)模的語(yǔ)料庫(kù)中,地名和專(zhuān)有名詞都進(jìn)行了短語(yǔ)結(jié)構(gòu)標(biāo)注。
③覆蓋面廣:人民日?qǐng)?bào)的語(yǔ)料不僅包括新聞,還包括各種題材、各種風(fēng)格、各種語(yǔ)體的文章,涉及社會(huì)科學(xué)和自然科學(xué)多種領(lǐng)域,有很廣泛的覆蓋面。
④正確率高:在自動(dòng)加工的基礎(chǔ)上進(jìn)行了大量的人工加工,采用人機(jī)結(jié)合的策略,是語(yǔ)料庫(kù)加工的正確率達(dá)到了國(guó)內(nèi)最高水平,在國(guó)際上也是罕見(jiàn)的。
⑤無(wú)著作權(quán)糾紛:與《人民日?qǐng)?bào)》達(dá)成協(xié)議,沒(méi)有著作權(quán)問(wèn)題。
3、北京語(yǔ)言文化大學(xué)
該校計(jì)算機(jī)系宋柔在遠(yuǎn)景校對(duì)系統(tǒng)的研究、開(kāi)發(fā)和測(cè)試過(guò)程中一直注重采用大規(guī)模真實(shí)語(yǔ)料進(jìn)行各種語(yǔ)言現(xiàn)象的統(tǒng)計(jì)、分析、檢索、歸納。為此,他們與一些報(bào)社、出版社合作,收集、整理了一批綜合性、規(guī)范性的電子文檔資料,建立了一個(gè)大型的中文語(yǔ)料庫(kù)(共約5億字)。在獲取語(yǔ)料后,又專(zhuān)門(mén)用工具軟件或人工加工清理了語(yǔ)料,分別建立了10個(gè)語(yǔ)料庫(kù)。各語(yǔ)料庫(kù)情況如下:
《當(dāng)代中國(guó) 叢書(shū)》:150卷(約6千萬(wàn)漢字)
《中華人民共和國(guó)年鑒》:1997年語(yǔ)料(約200萬(wàn)漢字)
《新聞出版報(bào)》:1988年語(yǔ)料(約260萬(wàn)漢字)
《輝煌五十年 湖南卷》:1949-1999年語(yǔ)料(約70萬(wàn)漢字)
《人民日?qǐng)?bào)》:1993-2000年七年語(yǔ)料(約2億字)
《人民日?qǐng)?bào) 市場(chǎng)報(bào)》:2000年語(yǔ)料(約1400萬(wàn)漢字)
《人民日?qǐng)?bào) 華南新聞:2000年語(yǔ)料(約600萬(wàn)漢字)
《人民日?qǐng)?bào) 華東新聞》:2000年語(yǔ)料(約500萬(wàn)漢字)
《經(jīng)濟(jì)日?qǐng)?bào)》:1992年語(yǔ)料(約1820萬(wàn)字)
《新華社》:1994-1996年三年語(yǔ)料(約3793萬(wàn)字)
宋柔還建立了面向語(yǔ)言學(xué)研究的漢語(yǔ)語(yǔ)料庫(kù)檢索系統(tǒng)CCRL,可以讓用戶(hù)使用自己的生語(yǔ)料庫(kù)和詞典生成語(yǔ)料索引,進(jìn)行檢索。
此外,北京語(yǔ)言文化大學(xué)還建立了如下的語(yǔ)料庫(kù):
當(dāng)代北京口語(yǔ)語(yǔ)料庫(kù)(1992年)
現(xiàn)代漢語(yǔ)語(yǔ)法研究語(yǔ)料庫(kù)(1995年)
現(xiàn)代漢語(yǔ)句型語(yǔ)料庫(kù)(1995年)
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1998年,與香港理工大學(xué)中文及雙語(yǔ)學(xué)系聯(lián)合建立)
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(1998年,與清華大學(xué)聯(lián)合,為國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目“語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的理論、方法和工具”而建立)
4、清華大學(xué)
該大學(xué)也建立了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù):1998年建立了1億漢字的語(yǔ)料庫(kù),著重研究歧義切分問(wèn)題。現(xiàn)在生語(yǔ)料庫(kù)已達(dá)7-8億字。
他們對(duì)于分詞技術(shù)進(jìn)行了深入研究,發(fā)現(xiàn)了偽歧義,提高了分詞精度: 計(jì)算機(jī)系孫茂松、左正平(1998)指出,切分歧義應(yīng)進(jìn)一步區(qū)別“真切分歧義”和“偽切分歧義”。譬如:同屬交集型,“地面積”為真歧義(“這幾塊 | 地 | 面積 | 還真不小”“地面 | 積 | 了厚厚的雪”),“和軟件”則為偽歧義(雖然存在兩種不同的切分形式“和軟 | 件”和“和軟 | 件”,但在真實(shí)文本中,無(wú)一例外地應(yīng)被切分為“和 | 軟件”);同屬組合型,“把手”為真歧義,“平淡”則為偽歧義。
他們還編制了信息處理用現(xiàn)代漢語(yǔ)分詞詞表,作為分詞最重要的語(yǔ)言資源。
中文系羅振聲建立了現(xiàn)代漢語(yǔ)句型研究語(yǔ)料庫(kù),從中總結(jié)出209種漢語(yǔ)句型。
清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室與北京語(yǔ)言文化大學(xué)語(yǔ)言信息處理研究所聯(lián)合研發(fā)的人工標(biāo)注語(yǔ)料庫(kù)HuaYu。這個(gè)語(yǔ)料庫(kù)區(qū)別于其它類(lèi)似語(yǔ)料庫(kù)的特點(diǎn):是:分布平衡, 不僅僅限于新聞報(bào)紙。
HuaYu的分布見(jiàn)表1:
分類(lèi) 篇數(shù) 漢字?jǐn)?shù) 比例 標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù) 比例
文學(xué) 295 880,057 44% 148,453 760,337 48%
新聞 376 600,490 30% 86,163 438,095 28%
學(xué)術(shù) 29 402,623 20% 52,823 278,728 18%
應(yīng)用文 258 119,488 6% 28,727 91,929 6%
合計(jì) 958 2,002,658 100% 316,116 1,569,089 100%
表 1 Hua Yu語(yǔ)料庫(kù)的分布
其中文學(xué)語(yǔ)料的分布見(jiàn)表2:
分類(lèi) 篇數(shù) 漢字?jǐn)?shù) 百分比 標(biāo)點(diǎn)符號(hào)數(shù) 詞次數(shù)
小說(shuō) 199 648,796 32.5% 112,749 566,730
散文 37 80,067 4% 10,347 65,453
回憶錄 29 50,401 2.5% 6,908 38,338
報(bào)告文學(xué) 13 50,019 2.5% 8,225 40,386
劇本 17 50,774 2.5% 10,224 49,430
合計(jì) 295 880,057 44% 148,453 760,337
表 2 文學(xué)語(yǔ)料的分布
他們對(duì)這個(gè)語(yǔ)料庫(kù)進(jìn)行了切分和標(biāo)注。
語(yǔ)料示例如下:
我|rn 認(rèn)識(shí)|vgn 王眉|npc 的|usd 時(shí)候|ng ,|, 她|rn 十|mw 三|mx 歲|qnm ,|, 我|rn 二|mx 十|mw 歲|qnm 。|。 那時(shí)|t 我|rn 正|dr 在|pza 海軍|ng 服役|vgi ,|,是|vi 一|mx 條|qns 掃雷艦|ng 上|f 的|usd 三七|ng 炮手|ng 。|。 她|rn 呢|y ,|, 是|vi 個(gè)|qng 來(lái)|vgn 姥姥|ng 家|ng 度假|(zhì)vgi 的|usd 中學(xué)生|ng 。|。 那|rn 年|qt 初夏|t ,|, 我們|rn 載|vgn 著|utz 海軍|ng 學(xué)校|ng 的|usd 學(xué)員|ng 沿|pg 漫長(zhǎng)|a 海岸線|ng 進(jìn)行|vf 了|utl 一|mx 次|qv 遠(yuǎn)航|vgx 。|。 到達(dá)|vgn 了|utl 北方|s 著名|a 良港|ng 兼|vgn 避暑|vgp 勝地|ng ,|, 在|pza 港|ng 外|f 和|pg 一|mx 條|qns 從|pg 南方|s 駛來(lái)|vgi 滿(mǎn)載|vgn 度假者|ng 的|usd 白色|ng 客輪|ng 并行|vgi 了|utl 一|mx 段|qns 時(shí)間|ng 。|。 進(jìn)|vgn 港|ng 時(shí)|ng 我|rn 艦|ng 超越|vgn 了|utl 客輪|ng ,|, 很|dd 親近|a 的|usd 擦|vgn 舷|ng 而|c 過(guò)|vgi 。|。 興奮|a 的|usd 旅游者|ng 們|ki 紛紛|dr 從|pg 客艙|ng 出來(lái)|vgi ,|, 擠|vgi 滿(mǎn)|a 邊舷|ng ,|, 向|pg 我們|rn 揮|vgn 手|ng 呼喊|vgi ,|,我們|rn 也|dr 向|pg 他們|rn 揮|vgn 手|ng 致意|vgi 。|。
清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室最近對(duì)HuaYu完成了語(yǔ)塊庫(kù)人工標(biāo)注(200萬(wàn)漢字左右),并根據(jù)句子中動(dòng)詞類(lèi)型和句子長(zhǎng)度等因素,從中隨機(jī)選取了20萬(wàn)詞,進(jìn)行語(yǔ)塊標(biāo)注,并進(jìn)一步完成了完整的句法樹(shù)標(biāo)注。
語(yǔ)塊標(biāo)注示例如下:
[從/p [他/rN 的/u 身上/s ] ,/, [我們/rN [看/v 到/vB] 了/u ] [一/m 位/qN ] [跨越/v [中國(guó)/nS {CS 近代/t 和/c 現(xiàn)代/t } 的/u [共產(chǎn)主義/n 戰(zhàn)士/n ] [光彩照人/iV 的/u 楷模/n ] 。/。]
句法樹(shù)標(biāo)注示例如下:
[zj [dj [pp 從/p [sp 他/rN 的/u 身上/s ] ] ,/, [dj 我們/rN [vp [vp [vp 看/v 到/vB ] 了/u ] [np [np [mp 一/m 位/qN ] [np [vp 跨越/v [tp 中國(guó)/nS [tp 近代/t 和/c 現(xiàn)代/t ] ] ] 的/u [np 共產(chǎn)主義/n 戰(zhàn)士/n ] ] ] [np 光彩照人/iV 的/u 楷模/n ] ] ] ] ] 。/。
5、山西大學(xué)
他們根據(jù)不同的需要,建立如下不同的語(yǔ)料庫(kù),主要有:
漢語(yǔ)新聞?wù)Z料庫(kù)(1988年),250萬(wàn)字,山西大學(xué),包括4部分:《人民日?qǐng)?bào)》:150萬(wàn)字,《北京科技報(bào)》:20萬(wàn)字;《電視新聞》(CCTV):50萬(wàn)字;《當(dāng)代》(雜志):30萬(wàn)字。
標(biāo)準(zhǔn)語(yǔ)料庫(kù)(2000年):.以分詞規(guī)范和語(yǔ)委詞類(lèi)標(biāo)記集為標(biāo)準(zhǔn)的綜合語(yǔ)料:70萬(wàn)字,其中10萬(wàn)字標(biāo)到了小類(lèi)。
特定加工的語(yǔ)料:
-- 標(biāo)注中國(guó)地名:標(biāo)注了280萬(wàn)字的語(yǔ)料庫(kù)(含不同地名1793個(gè),共出現(xiàn)11590次),建立中國(guó)地名庫(kù),共收88026個(gè)地名,同時(shí)建立中國(guó)地名用字庫(kù)(3685個(gè))和中國(guó)地名用詞庫(kù)(3917個(gè))。地名識(shí)別正確率為86.7%,召回率為93.8%。
-- 標(biāo)注中國(guó)人名:標(biāo)注了300萬(wàn)字的語(yǔ)料庫(kù),建立了姓氏人名庫(kù),得出了姓氏用字頻率表(729個(gè))和名字用字頻率表(3345個(gè)),中國(guó)人名識(shí)別的正確率為87.31%,召回率為95.23%。
-- 標(biāo)注西文譯名:標(biāo)注了250萬(wàn)字的語(yǔ)料庫(kù),西文譯名資源來(lái)自《英語(yǔ)姓名譯名手冊(cè)》和《新英漢詞典》的《常見(jiàn)英語(yǔ)姓名表》,正確率為63%,召回率為98%。。
-- 標(biāo)注中文組織機(jī)構(gòu)名:標(biāo)注了50萬(wàn)字的語(yǔ)料庫(kù),對(duì)組織機(jī)構(gòu)名的結(jié)構(gòu)進(jìn)行分析,使用基于規(guī)則的方法。
-- 標(biāo)注網(wǎng)上語(yǔ)料新詞語(yǔ):標(biāo)注了150萬(wàn)字的語(yǔ)料庫(kù)。
為了標(biāo)注交集型歧義字段,建立了7.8萬(wàn)字的交集型歧義字段庫(kù),已標(biāo)注510萬(wàn)字語(yǔ)料,分詞正確率達(dá)97%以上,同時(shí)證實(shí)了交集型歧義字段只有惟一可能的正確切分結(jié)果的偽歧義,占歧義字段總數(shù)的94%。
他們還建立多義組合型歧義字段庫(kù):收錄了133條多義組合型歧義字段,比較全面的反映了組合型歧義字段的實(shí)際情況。
6、上海師范大學(xué)
該校建立了3000萬(wàn)字的生語(yǔ)料庫(kù);根據(jù)北大的標(biāo)注規(guī)范建立了300萬(wàn)字的標(biāo)注語(yǔ)料庫(kù)。他們還建立了100萬(wàn)字《作家文摘》的標(biāo)注語(yǔ)料庫(kù),選取1997年的《作家文摘》,題材包括傳記文學(xué)、歷史故事、記實(shí)文學(xué)、人物特寫(xiě)、小說(shuō)、散文、評(píng)論等,依靠手工進(jìn)行標(biāo)注,不僅完成了切詞和詞性標(biāo)注,還完成了短語(yǔ)結(jié)構(gòu)關(guān)系和結(jié)構(gòu)功能的標(biāo)注。加工層次深。
標(biāo)注示例:
[zw他/rp [db[zc期望/vz 著/ut]vp[db 打/vs [dz[sl一/mx 個(gè)/qi]mp[dz[zc 漂亮/ax 的/us]np[dz 大/ax 勝戰(zhàn)/ng]np]np]vp]vp]jp 。/w
其中的zw (主謂結(jié)構(gòu))、db(動(dòng)賓結(jié)構(gòu))、 dz(定中結(jié)構(gòu))、sl(數(shù)量結(jié)構(gòu))等都是結(jié)構(gòu)功能的標(biāo)記。
7、北京郵電大學(xué)的樹(shù)庫(kù)
他們?cè)诿绹?guó)LDC的漢語(yǔ)句法樹(shù)庫(kù)的基礎(chǔ)上進(jìn)行自動(dòng)獲取語(yǔ)法規(guī)則的研究。LDC的樹(shù)庫(kù)包含新華社1994到1998年的325篇文章,包含4185顆樹(shù),10萬(wàn)個(gè)詞。他們對(duì)LDC樹(shù)庫(kù)進(jìn)行了改造,語(yǔ)法規(guī)則和分析模型參數(shù)都是通過(guò)LDC樹(shù)庫(kù)統(tǒng)計(jì)和訓(xùn)練得到。在抽取規(guī)則之前,進(jìn)行了如下的預(yù)處理工作:
刪除所有空的單詞;
去掉所有的非終結(jié)符的功能標(biāo)記;
去掉哪些只有一個(gè)孩子結(jié)點(diǎn),且此孩子結(jié)點(diǎn)是非終結(jié)符的結(jié)點(diǎn)。
在此基礎(chǔ)上進(jìn)行規(guī)則的自動(dòng)獲取,采用改進(jìn)的CYK算法自動(dòng)獲取了3690條規(guī)則,形式如下:
parent_symbol|current_symbol -> RHS1….RHSn log_probability
比如:NP|NP -> NN NN NN -0.879602
8、哈爾濱工業(yè)大學(xué)機(jī)器翻譯實(shí)驗(yàn)室(MT-Lab)的漢語(yǔ)語(yǔ)料庫(kù)
容量約1GB。
9、香港城市理工大學(xué)的對(duì)比語(yǔ)料庫(kù)
該大學(xué)語(yǔ)言資訊科學(xué)研究中心建立了LIVAC(Linguistic variety in Chinese communities)語(yǔ)料庫(kù),其宗旨在于研究使用中文的各個(gè)地區(qū)使用語(yǔ)言的異同。這個(gè)語(yǔ)料庫(kù)從1993年開(kāi)始策劃,在香港、澳門(mén)、上海、新加坡和臺(tái)灣五個(gè)不同的地區(qū),每日選定一天的報(bào)紙摘錄其部分資料入庫(kù),資料的內(nèi)容包括社論、第一版的全部新聞和文章、國(guó)際版、地方版、特寫(xiě)、評(píng)論等。每天收集的份量約兩萬(wàn)字,如果已經(jīng)達(dá)到兩萬(wàn)字,不太重要的資料就只好割?lèi)?ài)。從1995年 7月到1997年6月的兩年內(nèi),該語(yǔ)料庫(kù)所收集的資料總字?jǐn)?shù)為15,234,551字,經(jīng)過(guò)自動(dòng)切詞和人工校對(duì)之后總詞數(shù)約為8,869,900詞。
統(tǒng)計(jì)結(jié)果表明,中文各地區(qū)所使用的詞語(yǔ),以雙音節(jié)為最多,其次是三音節(jié),再其次是四音節(jié),再再其次是單音節(jié),但是,單音節(jié)詞語(yǔ)的使用頻度卻比較高,僅次于雙音節(jié)詞語(yǔ)的頻度,而且遠(yuǎn)遠(yuǎn)超出其他音節(jié)詞語(yǔ)頻度之總合。
統(tǒng)計(jì)結(jié)果還表明,香港和澳門(mén)的用詞相同率最高,香港與臺(tái)灣、香港與新加坡的用詞相同率居第二,香港與上海的用詞相同率最低。從歷史背景和社會(huì)情況來(lái)看,這個(gè)數(shù)字是可以接受的。因?yàn)橄愀叟c澳門(mén)距離很近,又都長(zhǎng)期被歐洲國(guó)家管制,香港與臺(tái)灣和新加坡的商務(wù)情況和社會(huì)結(jié)構(gòu)之間的相同點(diǎn)都比香港與上海之間多,這種情況,在詞語(yǔ)中必定會(huì)反映出來(lái)。
統(tǒng)計(jì)結(jié)果還表明,新加坡所用詞語(yǔ)比較少,而上海的特有詞語(yǔ)比較多,這似乎可以從新加坡華語(yǔ)并非當(dāng)?shù)厣鐣?huì)生活的唯一語(yǔ)言,而上海在中國(guó)的特殊地位和經(jīng)濟(jì)活動(dòng)非常活躍有關(guān)。
10、臺(tái)灣的語(yǔ)料庫(kù)
臺(tái)灣建立了平衡語(yǔ)料庫(kù)(Sinica Corpus,中央研究院)和樹(shù)圖語(yǔ)料庫(kù)(Sinica Treebank,中央研究院)。兩個(gè)都是標(biāo)記語(yǔ)料庫(kù),有一定加工深度。語(yǔ)料庫(kù)規(guī)模約500萬(wàn)字。
(四)口語(yǔ)語(yǔ)料庫(kù)
1、中國(guó)社會(huì)科學(xué)院語(yǔ)言所
他們建立了現(xiàn)代自然口語(yǔ)語(yǔ)料庫(kù),包括一個(gè)旅館預(yù)定口語(yǔ)語(yǔ)料庫(kù),搜集了2小時(shí)電話(huà)的對(duì)話(huà),對(duì)話(huà)人數(shù)200人以上,進(jìn)行韻律切分和句法標(biāo)注,是wav文件,用SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫(xiě)成漢字文本;還包括一個(gè)無(wú)限制的自然對(duì)話(huà)語(yǔ)料庫(kù):14.2小時(shí)的對(duì)話(huà),對(duì)話(huà)人數(shù)22人,進(jìn)行韻律切分和句法標(biāo)注,是wav文件,用 SAMPA-C標(biāo)音,C-ToBI 2.0標(biāo)注韻律,并轉(zhuǎn)寫(xiě)成漢字文本。
語(yǔ)言所還正在建立現(xiàn)代漢語(yǔ)方言自然口語(yǔ)語(yǔ)料庫(kù),設(shè)計(jì)了1500種引導(dǎo)話(huà)題和多種采集自然口語(yǔ)的交際環(huán)境,其中,采用話(huà)題引導(dǎo)的方式采集的話(huà)題語(yǔ)料占60%,在說(shuō)話(huà)人不知道的情況下現(xiàn)場(chǎng)采集的口語(yǔ)語(yǔ)料占40%。
2、中國(guó)科學(xué)院自動(dòng)化所
該所建立了一個(gè)旅游咨詢(xún)口語(yǔ)對(duì)話(huà)語(yǔ)料庫(kù)和一個(gè)旅館預(yù)定口語(yǔ)對(duì)話(huà)語(yǔ)料庫(kù),可以用于限定領(lǐng)域的口語(yǔ)理解模型、口語(yǔ)對(duì)話(huà)管理模型、基于統(tǒng)計(jì)的口語(yǔ)翻譯技術(shù)等研究。
(五)雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)
1、英漢雙語(yǔ)語(yǔ)料庫(kù)
北大計(jì)算語(yǔ)言學(xué)研究所的雙語(yǔ)語(yǔ)料庫(kù),英漢對(duì)齊的句子已有5萬(wàn)多對(duì),并開(kāi)發(fā)了相應(yīng)的對(duì)齊工具和雙語(yǔ)語(yǔ)料庫(kù)管理軟件。正在此基礎(chǔ)上做漢英對(duì)照短語(yǔ)庫(kù),預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬(wàn)條。
哈爾濱工業(yè)大學(xué)的英漢雙語(yǔ)語(yǔ)料庫(kù):1998年有3萬(wàn)句子對(duì),已經(jīng)進(jìn)行了詞性標(biāo)注,正在擴(kuò)充為40-50萬(wàn)句子對(duì),在句子、短語(yǔ)、詞匯三級(jí)實(shí)現(xiàn)雙語(yǔ)對(duì)齊。
東北大學(xué)的英漢雙語(yǔ)語(yǔ)段庫(kù):在雙語(yǔ)語(yǔ)料庫(kù)基礎(chǔ)上,建造雙語(yǔ)語(yǔ)段庫(kù),1999年構(gòu)造了10萬(wàn)雙語(yǔ)語(yǔ)段庫(kù),進(jìn)行了基于語(yǔ)段的英漢機(jī)器翻譯實(shí)驗(yàn),正在以“ 機(jī)獲人校”的辦法建造100萬(wàn)雙語(yǔ)語(yǔ)段庫(kù),擬擴(kuò)充到500萬(wàn)雙語(yǔ)語(yǔ)段庫(kù),進(jìn)一步建造具有1000萬(wàn)語(yǔ)段的大容量網(wǎng)上英漢語(yǔ)段電子詞典,研究電子詞典中搭配短語(yǔ)獲取算法,建造大容量網(wǎng)上電子英漢搭配詞典。
外語(yǔ)教學(xué)與研究出版社:
-- 英漢文學(xué)作品語(yǔ)料庫(kù)
-- 馮友蘭《中國(guó)哲學(xué)史》漢英對(duì)照語(yǔ)料庫(kù)
-- 李約瑟(Joself Needham)《中國(guó)科學(xué)技術(shù)史》英漢對(duì)照語(yǔ)料庫(kù)
國(guó)家語(yǔ)言文字工作委員會(huì)語(yǔ)言文字應(yīng)用研究所建立了英漢雙語(yǔ)語(yǔ)料庫(kù),其中包括一個(gè)計(jì)算機(jī)專(zhuān)業(yè)的雙語(yǔ)語(yǔ)料庫(kù)和一個(gè)柏拉圖(Plato)哲學(xué)名著《理想國(guó)》(Politeia)的雙語(yǔ)語(yǔ)料庫(kù)。在這些雙語(yǔ)語(yǔ)料庫(kù)上,他們進(jìn)行了漢字極限熵的測(cè)定和雙語(yǔ)對(duì)齊的研究。
中國(guó)科學(xué)院軟件研究所的英漢雙語(yǔ)語(yǔ)料庫(kù):進(jìn)行雙語(yǔ)對(duì)齊算法研究?,F(xiàn)有15萬(wàn)對(duì)英漢雙語(yǔ)對(duì)齊句子庫(kù),已經(jīng)切分和標(biāo)注。
中國(guó)科學(xué)院自動(dòng)化研究所的英漢雙語(yǔ)語(yǔ)料庫(kù):購(gòu)買(mǎi) LDC香港新聞?dòng)h雙語(yǔ)對(duì)齊語(yǔ)料36294段以及香港法律英漢雙語(yǔ)對(duì)齊語(yǔ)料31萬(wàn)句子對(duì),并從英漢雙解詞典中摘取例句25000個(gè)句子對(duì)。
2、日漢對(duì)譯語(yǔ)料庫(kù)
北京外國(guó)語(yǔ)大學(xué)的北京日本學(xué)研究中心建立漢語(yǔ)和日語(yǔ)并行語(yǔ)料庫(kù),內(nèi)容以中日文學(xué)名著為主,兼收劇本、散文、政論文,原文和譯文全文收錄,部分名著收入多個(gè)譯本。2000萬(wàn)字。進(jìn)行自動(dòng)切分和詞性標(biāo)注,部分文本進(jìn)行語(yǔ)法和語(yǔ)義標(biāo)注,采用SGML國(guó)際標(biāo)準(zhǔn)。
3、德漢雙語(yǔ)語(yǔ)料庫(kù)
山東海洋大學(xué)語(yǔ)言文學(xué)院研制的《蝴蝶》(王蒙小說(shuō))德漢對(duì)照語(yǔ)料庫(kù),用于德漢翻譯對(duì)比研究,完全采用手工方式排比語(yǔ)料,主要比較了漢語(yǔ)的“了”與德語(yǔ)動(dòng)詞完成式的關(guān)系。規(guī)模很小。
4、漢日英分類(lèi)熟語(yǔ)料庫(kù)
復(fù)旦大學(xué)計(jì)算機(jī)系建立了容量為1GB漢日英分類(lèi)熟語(yǔ)料庫(kù),包含數(shù)千個(gè)類(lèi)別,數(shù)十萬(wàn)篇文章。
(六)少數(shù)民族語(yǔ)言語(yǔ)料庫(kù)
1、維吾爾語(yǔ)語(yǔ)料庫(kù)
新疆師范大學(xué)建立了200萬(wàn)詞的維吾爾語(yǔ)語(yǔ)料庫(kù),擬發(fā)展到300萬(wàn)詞。
2藏語(yǔ)語(yǔ)料庫(kù)
中國(guó)社會(huì)科學(xué)院民族研究所建立了500萬(wàn)藏語(yǔ)字符的藏語(yǔ)語(yǔ)料庫(kù),擬進(jìn)行切分和標(biāo)注的研究。
3、蒙古語(yǔ)語(yǔ)料庫(kù)
內(nèi)蒙古大學(xué)建立了蒙古語(yǔ)語(yǔ)料庫(kù),進(jìn)行了初步的切分和標(biāo)注。
三、語(yǔ)料庫(kù)的加工技術(shù)
(一)自動(dòng)切分
在自動(dòng)切分方面,提出的切分歧義技術(shù)有:“松弛法”(Fan C.K., Tsai W.H. 1988),“擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)”(黃祥喜 1989),“短語(yǔ)結(jié)構(gòu)文法”(梁南元 1990;姚天順、張桂平等 1990;Yeh C.L., Lee H.J. 1991;韓世欣、王開(kāi)鑄 1992),“專(zhuān)家系統(tǒng)”方法(徐輝、何克抗等 1991),“神經(jīng)網(wǎng)絡(luò)”方法(徐秉錚、詹劍等,1993),“有限狀態(tài)自動(dòng)機(jī)”方法(Sproat R., Shih C.L et al. 1996),“隱Markov模型”(Lai B.Y., Sun M.S. et al 1997;沈達(dá)陽(yáng)、孫茂松等 1997a;孫茂松、左正平等1999),“Brill式轉(zhuǎn)換法”(Palmer D.D. 1997)等。
此外還研究了人名識(shí)別技術(shù)、地名識(shí)別技術(shù)、機(jī)構(gòu)名識(shí)別技術(shù)、新詞語(yǔ)識(shí)別技術(shù)。
(二)自動(dòng)標(biāo)注
在自動(dòng)標(biāo)注方面,基于規(guī)則的方法主要解決標(biāo)注中的兼類(lèi)詞問(wèn)題;基于統(tǒng)計(jì)的方法主要有CLAWS算法、VOLSUNGA算法、HMM(隱馬爾可夫模型)、TBED法(Transformation-Based Error-Driven,Eric Brill于1993年提出的方法)
(三)自動(dòng)短語(yǔ)結(jié)構(gòu)標(biāo)注
短語(yǔ)結(jié)構(gòu)標(biāo)注的結(jié)果,可以用短語(yǔ)結(jié)構(gòu)語(yǔ)法樹(shù) (P-Tree)來(lái)表示,也可以用依存樹(shù)(D-Tree)來(lái)表示,有的系統(tǒng)采用了從P-Tree到D-Tree的轉(zhuǎn)換技術(shù),有的系統(tǒng)采用CYK算法進(jìn)行短語(yǔ)結(jié)構(gòu)分析。
(四)雙語(yǔ)對(duì)齊技術(shù)
主要采用基于長(zhǎng)度的方法、基于詞典的方法以及把這兩種方法結(jié)合起來(lái)的混合方法。
四、語(yǔ)料庫(kù)建設(shè)中的若干問(wèn)題
(一)語(yǔ)料庫(kù)的規(guī)范與標(biāo)準(zhǔn)
我國(guó)中文信息界從1988年開(kāi)始研制《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》的國(guó)家標(biāo)準(zhǔn),根據(jù)科學(xué)性、嚴(yán)謹(jǐn)性、穩(wěn)定性、通用性、實(shí)用性和完整性(規(guī)范對(duì)現(xiàn)代漢語(yǔ)語(yǔ)言現(xiàn)象的覆蓋率應(yīng)該達(dá)到99%以上),經(jīng)過(guò)三年時(shí)間的研究,七易其稿,于1992年批準(zhǔn)為國(guó)家標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為GB/T13715-92。這個(gè)規(guī)范的主體結(jié)構(gòu)分為主題內(nèi)容與適用范圍、引用標(biāo)準(zhǔn)、術(shù)語(yǔ)、概述和具體說(shuō)明五個(gè)部分。由于漢語(yǔ)中語(yǔ)素、單詞和詞組的界限不夠清晰,分詞規(guī)范中除了基本上采用了《暫擬漢語(yǔ)教學(xué)語(yǔ)法系統(tǒng)》中詞的定義,把詞定義為“最小的獨(dú)立運(yùn)用的語(yǔ)言單位”之外,還特別地提出了“分詞單位”的概念,把“分詞單位”定義為“漢語(yǔ)信息處理使用的具有確定的語(yǔ)義或語(yǔ)法功能的基本單位”,并且指出,分詞單位“包括本規(guī)范限定的詞和詞組”。“分詞單位”的提出,巧妙地避開(kāi)了關(guān)于詞的定義的爭(zhēng)論,協(xié)調(diào)了當(dāng)時(shí)學(xué)術(shù)界的矛盾。
我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)常用詞表》。由于漢語(yǔ)語(yǔ)言現(xiàn)象的極端復(fù)雜性,幾乎每條規(guī)則都會(huì)出現(xiàn)例外,因此,分詞規(guī)范提出了“結(jié)合緊密,使用穩(wěn)定”的原則作為判定一個(gè)符號(hào)串是否可以作為分詞單位的準(zhǔn)則。但是,這個(gè)原則不夠具體,實(shí)行起來(lái)往往見(jiàn)仁見(jiàn)智,從而造成不同系統(tǒng)中分詞單位的不一致。所以,后來(lái)有的學(xué)者建議在規(guī)范之外,還應(yīng)該根據(jù)規(guī)范提出一個(gè)詞表來(lái)作進(jìn)一步具體的說(shuō)明,以利規(guī)范的實(shí)施。采用“規(guī)范+詞表”的策略,這是很有遠(yuǎn)見(jiàn)的做法。 1994年,該規(guī)范的主要制定者劉源教授等人根據(jù)現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)的結(jié)果,公布了一個(gè)《信息處理用現(xiàn)代漢語(yǔ)常用詞表》,收詞43570條,可惜,這個(gè)詞表對(duì)于規(guī)范中的一些難點(diǎn),仍然沒(méi)有作出很好的處理,權(quán)威性不夠。
臺(tái)灣研制了一個(gè)《資訊處理用中文分詞規(guī)范》。臺(tái)灣的計(jì)算語(yǔ)言學(xué)會(huì)在1995年提出了《資訊處理用中文分詞規(guī)范》,這個(gè)規(guī)范提出三條基本原則:1.分詞單位必須符合語(yǔ)言學(xué)理論的要求;2.在信息處理上確實(shí)可行;3.能確保真實(shí)文本處理的一致性。另外還制定了一些輔助原則(合并原則、切分原則),以決定合并還是切分。該規(guī)范按照分詞的難易程度,把分詞規(guī)范分為信、達(dá)、雅三個(gè)不同的等級(jí)。信級(jí)標(biāo)準(zhǔn)是基本資料交換的標(biāo)準(zhǔn);達(dá)級(jí)標(biāo)準(zhǔn)是機(jī)器翻譯、情報(bào)檢索等自然語(yǔ)言處理的標(biāo)準(zhǔn);雅級(jí)標(biāo)準(zhǔn)則是分詞的理想境界。這種分等級(jí)的做法有利于處理難易程度不同的分詞作業(yè)。
我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)規(guī)范詞表》。國(guó)家語(yǔ)言文字工作委員會(huì)在1995年提出研制《信息處理用現(xiàn)代漢語(yǔ)規(guī)范詞表》的任務(wù),目的在于從政府的角度,研制規(guī)范的現(xiàn)代漢語(yǔ)通用詞表,以便作為大家遵循的、統(tǒng)一的通用詞表,詞表的規(guī)模大約6萬(wàn)至8萬(wàn)條,這項(xiàng)工作還未完成。現(xiàn)代漢語(yǔ)的詞匯是一個(gè)復(fù)雜的體系,除了通用詞之外,還有術(shù)語(yǔ)、方言詞語(yǔ)、文言詞語(yǔ)、專(zhuān)名詞語(yǔ)(包括人名、地名、機(jī)構(gòu)名等)、各種熟語(yǔ)(包括成語(yǔ)、慣用語(yǔ)、歇后語(yǔ)、諺語(yǔ)、格言等)。詞語(yǔ)是不斷發(fā)展變化的,隨著社會(huì)的發(fā)展,還會(huì)出現(xiàn)大量的新詞新語(yǔ)。信息處理會(huì)涉及到上述各種詞語(yǔ),因此,詞表的制定,除了制定通用詞表之外,還應(yīng)該制訂不同專(zhuān)業(yè)的術(shù)語(yǔ)詞表、方言詞表、文言詞表、專(zhuān)名詞表、熟語(yǔ)詞表、新詞語(yǔ)詞表等。這是一項(xiàng)龐大的工程。這些詞表的制訂和規(guī)范化,對(duì)于我國(guó)計(jì)算語(yǔ)言學(xué)的進(jìn)一步發(fā)展有著深遠(yuǎn)的影響。
我國(guó)還研制了《信息處理用現(xiàn)代漢語(yǔ)詞類(lèi)標(biāo)記集規(guī)范》:該規(guī)范由教育部語(yǔ)言文字應(yīng)用研究所計(jì)算語(yǔ)言學(xué)研究室研制,包括 18 個(gè)大類(lèi)。信息處理用現(xiàn)代漢語(yǔ)詞類(lèi)標(biāo)記集規(guī)范制訂的主要原則有三個(gè):① 語(yǔ)法功能原則。語(yǔ)法功能是詞類(lèi)劃分的主要依據(jù)。詞的意義不作為劃分詞類(lèi)的主要依據(jù),但有時(shí)也起某些參考作用。② 允許有兼類(lèi)。根據(jù)各種統(tǒng)計(jì)研究,現(xiàn)代漢語(yǔ)的某些詞具有多種語(yǔ)法功能,但這多種功能的分布概率不同。在信息處理用現(xiàn)代漢語(yǔ)詞類(lèi)體系中,各詞類(lèi)的確立要根據(jù)詞的主要語(yǔ)法功能。 ③詞類(lèi)標(biāo)記集中的大類(lèi)應(yīng)能覆蓋現(xiàn)代漢語(yǔ)的全部詞。這個(gè)規(guī)范正在考慮提升為國(guó)家標(biāo)準(zhǔn)。
我國(guó)某些學(xué)者關(guān)注到國(guó)際上關(guān)于通用置標(biāo)語(yǔ)言的進(jìn)展。由計(jì)算機(jī)和人文科學(xué)學(xué)會(huì)(ACH)、計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(ACL)和文學(xué)與語(yǔ)言計(jì)算學(xué)會(huì)(ALLC) 聯(lián)合提出了TEI(Text Encoding Initiative,文本編碼倡議,1998年),其目標(biāo)是為電子文本制訂一套統(tǒng)一的編碼規(guī)范,以推動(dòng)語(yǔ)料存儲(chǔ)格式的標(biāo)準(zhǔn)化,實(shí)現(xiàn)語(yǔ)料的交換和共享。
由歐洲MULTEXT、EAGLES和VASSAR/CNRS collaboration聯(lián)合提出CES(Corpus Encoding Standard,語(yǔ)料庫(kù)編碼標(biāo)準(zhǔn)),可廣泛應(yīng)用于語(yǔ)料庫(kù)的研制與開(kāi)發(fā)。
1986年ISO正式發(fā)布了國(guó)際標(biāo)準(zhǔn)SGML(Standard Generalized Markup Language,標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言),標(biāo)準(zhǔn)號(hào)是ISO8879-1986.我國(guó)于1995年也把SGML語(yǔ)言作為國(guó)家標(biāo)準(zhǔn),標(biāo)準(zhǔn)號(hào)為GB 14814。馮志偉在《當(dāng)代語(yǔ)言學(xué)》(1998年,第4期)的《標(biāo)準(zhǔn)通用置標(biāo)語(yǔ)言SGML及其在自然語(yǔ)言處理中的應(yīng)用》一文詳細(xì)介紹過(guò)SGML語(yǔ)言。
XML(eXtensible Markup Language,可擴(kuò)充置標(biāo)語(yǔ)言)是SGML的一個(gè)子集,被廣泛地用做語(yǔ)料庫(kù)標(biāo)注的元語(yǔ)言,通過(guò) DTD(Document Type Definition,文件類(lèi)型定義)和Schema來(lái)規(guī)范XML文件,從而使表現(xiàn)與內(nèi)容分離,規(guī)范與實(shí)現(xiàn)分離,具有良好的擴(kuò)縮性。
我國(guó)語(yǔ)料庫(kù)的建設(shè)將一定會(huì)采用通用置標(biāo)語(yǔ)言作為描述語(yǔ)料庫(kù)的元語(yǔ)言。
(二)語(yǔ)料庫(kù)的資源共享
語(yǔ)料庫(kù)的資源共享的方式有如下幾種:作為產(chǎn)品出售;實(shí)行會(huì)員制;授予使用許可權(quán);給非贏利目的的學(xué)術(shù)結(jié)構(gòu)提供無(wú)償使用。
(三)語(yǔ)料庫(kù)的知識(shí)產(chǎn)權(quán)
隨著語(yǔ)料庫(kù)的廣泛使用,語(yǔ)料庫(kù)的知識(shí)產(chǎn)權(quán)問(wèn)題越來(lái)越尖銳,以正式出版物為資源的語(yǔ)料庫(kù)面臨版權(quán)的問(wèn)題。建議政府有關(guān)部門(mén)建立關(guān)于語(yǔ)料庫(kù)資源的版權(quán)法規(guī),建議中國(guó)中文信息學(xué)會(huì)出面協(xié)調(diào)。
(四)語(yǔ)料庫(kù)加工中的統(tǒng)計(jì)垃圾
由于電子文本的普遍使用,語(yǔ)料資源的獲取變得越來(lái)越容易,我國(guó)大規(guī)模的真實(shí)文本語(yǔ)料庫(kù)其規(guī)模已經(jīng)達(dá)到5億字。美國(guó)計(jì)算語(yǔ)言學(xué)會(huì)的ACL/DCI 數(shù)據(jù)采集計(jì)劃指出,如果以文本形式存儲(chǔ)語(yǔ)料,語(yǔ)料庫(kù)的容量一般可以為1億詞次以上,將來(lái)可以達(dá)到萬(wàn)億詞次的數(shù)量級(jí)。隨著語(yǔ)料庫(kù)容量的不斷增大,語(yǔ)料統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象會(huì)越來(lái)越嚴(yán)重。宋柔在統(tǒng)計(jì)語(yǔ)料庫(kù)中的詞語(yǔ)接續(xù)對(duì)時(shí)發(fā)現(xiàn):“隨著語(yǔ)料庫(kù)規(guī)模的增大,新增加的接續(xù)對(duì)中的垃圾逐漸會(huì)占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計(jì)到的低頻度接續(xù)對(duì)中,主要來(lái)源是分詞中專(zhuān)名識(shí)別錯(cuò)誤。”應(yīng)該看到,在統(tǒng)計(jì)垃圾中蘊(yùn)藏著許多正在萌芽的新的語(yǔ)言現(xiàn)象,如“噴塑、蒜農(nóng)、危改、市話(huà)、高檢”等低頻度的新詞語(yǔ),由于在詞典中沒(méi)有存儲(chǔ),都可以在統(tǒng)計(jì)垃圾中找到。如何真確地對(duì)待統(tǒng)計(jì)垃圾,避免統(tǒng)計(jì)中的數(shù)據(jù)稀疏現(xiàn)象,變垃圾為有用的語(yǔ)言資源,是大規(guī)模真實(shí)文本處理的一個(gè)新課題。
參考文獻(xiàn):
1、J. Sinclair, Reflections on computer corpora in English language research [M], 1982.
2、北京語(yǔ)言學(xué)院語(yǔ)言教學(xué)研究所,漢語(yǔ)詞匯的統(tǒng)計(jì)與分析[M],外語(yǔ)教學(xué)與研究出版社,1985年。
3、馮志偉,計(jì)算語(yǔ)言學(xué)基礎(chǔ)[M],商務(wù)印書(shū)館,2001年。
4、馮志偉,語(yǔ)料庫(kù)語(yǔ)言學(xué)與機(jī)器翻譯[M],《信息網(wǎng)絡(luò)時(shí)代與日本研究》,山東大學(xué)出版社,1999年。
5、劉開(kāi)瑛,中文文本自動(dòng)分詞和標(biāo)注[M],商務(wù)印書(shū)館,2000年。
6、孫茂松等,高頻最大交集型歧義切分字段在漢語(yǔ)自動(dòng)切分中的作用[J],中文信息學(xué)報(bào),第13卷,第1期,1999年。
7、俞士汶、朱學(xué)鋒、段慧明,大規(guī)?,F(xiàn)代漢語(yǔ)標(biāo)注語(yǔ)料庫(kù)的加工規(guī)范[J],中文信息學(xué)報(bào),第14卷,第6期,2000年。