淺談檔案信息計(jì)算機(jī)的檢索論文
淺談檔案信息計(jì)算機(jī)的檢索論文
隨著改革開(kāi)放和經(jīng)濟(jì)建設(shè)的發(fā)展,檔案在各行各業(yè)工作中的社會(huì)地位和利用價(jià)值越來(lái)越高,對(duì)檔案進(jìn)行科學(xué)化、現(xiàn)代化管理日趨緊迫,并在管理和開(kāi)發(fā)利用檔案領(lǐng)域內(nèi)逐步形成了應(yīng)用縮微技術(shù)和應(yīng)用計(jì)算機(jī)技術(shù)的兩大主流。如何把這兩大主流的技術(shù)相結(jié)合,提高檔案現(xiàn)代化管理的綜合水平,無(wú)疑是檔案界普遍關(guān)注的問(wèn)題。以下是學(xué)習(xí)啦小編為大家精心準(zhǔn)備的:淺談檔案信息計(jì)算機(jī)的檢索相關(guān)論文。內(nèi)容僅供參考,歡迎閱讀!
淺談檔案信息計(jì)算機(jī)的檢索全文如下:
一、檔案信息計(jì)算機(jī)檢索的特點(diǎn)
一是信息存儲(chǔ)量大、檢索速度快、檢索效果好。二是檢索途徑多元化。三是檔案信息的檢索對(duì)計(jì)算機(jī)系統(tǒng)的依賴性強(qiáng)。運(yùn)用計(jì)算機(jī)檢索檔案信息的查全率、查準(zhǔn)率與檔案工作者、利用者熟練掌握計(jì)算機(jī)檢索文檔的知識(shí)及檢索技能的掌握有著密切的關(guān)聯(lián),特別是在檔案信息服務(wù)經(jīng)濟(jì)建設(shè)和服務(wù)民生工作中,要求檔案工作者不僅要掌握計(jì)算機(jī)檔案檢索知識(shí),而且要向廣大的利用者普及檔案檢索知識(shí),才能有效地提高檔案信息的利用效益,極大地?cái)U(kuò)展檔案工作的社會(huì)影響力,提高檔案工作的社會(huì)地位。
二、檔案計(jì)算機(jī)檢索系統(tǒng)的建立
建立功能完善的檔案計(jì)算機(jī)檢索系統(tǒng),應(yīng)科學(xué)地進(jìn)行檢索流程和檔案信息檢索級(jí)別設(shè)計(jì)。
(一)計(jì)算機(jī)檢索流程設(shè)計(jì)。檔案計(jì)算機(jī)檢索流程包括檔案文獻(xiàn)信息的輸入和檔案文獻(xiàn)信息的輸出兩部分,具體流程如圖所示。
1 檔案文獻(xiàn)信息的輸入。計(jì)算機(jī)文獻(xiàn)檢索系統(tǒng)的基礎(chǔ)是數(shù)據(jù)庫(kù)的建立,包括文獻(xiàn)的選擇、標(biāo)引、加工和輸入等一系列的過(guò)程,數(shù)據(jù)庫(kù)的數(shù)據(jù)數(shù)量和質(zhì)量對(duì)于計(jì)算機(jī)檢索系統(tǒng)的性能具有直接影響。為適應(yīng)檔案現(xiàn)代化管理需要,建立統(tǒng)一的檔案檢索和管理體系,更好地開(kāi)發(fā)檔案信息,實(shí)現(xiàn)檔案信息共享,目前,我國(guó)各省(市)國(guó)家檔案館均制定了《綜合檔案館電子目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與交換格式》。該標(biāo)準(zhǔn)分別制定了適用于文書(shū)立卷改革前的檔案目錄的《案卷級(jí)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與著錄格式》和適用于按照DA/T22-2000《歸檔文件整理規(guī)則》整理的檔案目錄的《文件級(jí)目錄數(shù)據(jù)庫(kù)結(jié)構(gòu)與著錄格式》。文檔管理系統(tǒng)機(jī)讀目錄輸入規(guī)范,采用1992月1日實(shí)施的《檔案著錄規(guī)則DA/T 18-1999》的著錄項(xiàng),文檔管理軟件在案卷級(jí)著錄和文件級(jí)著錄選取的主要著錄項(xiàng)目字段有:題名、并列題名、文件編號(hào)、責(zé)任者、附件、稿本和文種、密級(jí)與保管期限項(xiàng)、文件形成時(shí)間項(xiàng)、載體類型、數(shù)量及單位、分類號(hào)、檔案館代號(hào)、檔號(hào)、電子文檔號(hào)、縮微號(hào)、主題詞或關(guān)鍵詞。
2 檔案文獻(xiàn)信息的輸出。利用者根據(jù)對(duì)檔案文獻(xiàn)的信息需求,編制恰當(dāng)?shù)臋z索條件,形成檢索表達(dá)式,并將其輸入計(jì)算機(jī),在數(shù)據(jù)庫(kù)查找后將結(jié)果輸出。
(二)檔案信息檢索級(jí)別設(shè)計(jì)。檢索級(jí)別是衡量檢索深度和檢索精度的重要標(biāo)準(zhǔn)。檔案信息計(jì)算機(jī)檢索,檢索級(jí)別越小、越低、內(nèi)容越具體,說(shuō)明檢索的精度越高、檢索的深度越深。
1 案卷級(jí)檢索。案卷級(jí)檢索是指檢索出的檔案只能是案卷級(jí)目錄,而無(wú)法一次檢索出其卷內(nèi)的具體文件,其檢索依據(jù)是用案卷目錄來(lái)建立的案卷級(jí)目錄數(shù)據(jù)庫(kù)。檔案工作者都知道擬寫(xiě)案卷題名是一件比較困難的事情,規(guī)定字?jǐn)?shù)不能超過(guò)五十個(gè)漢字,且題名要盡可能涵蓋卷內(nèi)文件的內(nèi)容,即案卷題名的內(nèi)涵盡可能等于卷內(nèi)文件的外延。由于檔案工作者水平不一,擬寫(xiě)的案卷題名涵蓋不了該案卷所有的文件內(nèi)容。檢索文書(shū)檔案內(nèi)容方面,檔案館(室)很少采用案卷級(jí)檢索功能,而在科技檔案和專門檔案檢索中經(jīng)常使用。
2 文件級(jí)檢索。利用計(jì)算機(jī)檢索工具不僅可以按著錄項(xiàng)目進(jìn)行單項(xiàng)檢索,還可以把若干項(xiàng)目結(jié)合起來(lái)檢索,均可檢索出具體的文件(即文件級(jí)檢索),以滿足利用者獲取檔案信息的需求。作為文件級(jí)檢索,是檔案館(室)經(jīng)常采用的檔案文獻(xiàn)檢索手段,其具有一次輸入、多次輸出、多樣化輸出的功能。文件級(jí)檔案文獻(xiàn)的查準(zhǔn)率和查全率,取決于操作者對(duì)檔案著錄項(xiàng)目的組合而設(shè)置檢索條件,凡輸入計(jì)算機(jī)的每一個(gè)檢索著錄條目為一個(gè)檢索入口,如把文件的責(zé)任者、題名、時(shí)間3項(xiàng)目結(jié)合起來(lái)檢索,可以獲得滿足這3個(gè)檢索條件的檔案文獻(xiàn)。在檢索工具中還可通過(guò)主題標(biāo)引和分類標(biāo)引的手段揭示出文件內(nèi)容所涉及到的概念性主題或所屬邏輯類別,這類檢索有時(shí)被稱為“內(nèi)容級(jí)檢索”。但因文件內(nèi)容不能脫離開(kāi)文件而單獨(dú)存在,檢索成果依然是一份份的文件,所以“內(nèi)容級(jí)”嚴(yán)格說(shuō)起來(lái)無(wú)法成立,只能歸入“文件級(jí)”。
3 全文檢索。全文檢索是計(jì)算機(jī)程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置。當(dāng)用戶查詢時(shí)根據(jù)建立的索引查找,類似于通過(guò)字典的檢索字表查字的過(guò)程。全文檢索系統(tǒng)是按照全文檢索理論建立起來(lái)的用于提供全文檢索服務(wù)的軟件系統(tǒng)。在功能上,全文檢索系統(tǒng)需要具有建立索引、處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能。結(jié)構(gòu)上,全文檢索系統(tǒng)具有索引引擎、查詢引擎、文本分析引擎和對(duì)外接口等。全文檢索彌補(bǔ)了文件級(jí)檢索存在的不足之處,因?yàn)橛械奈募?biāo)題擬寫(xiě)不準(zhǔn)確,或綜合性的文件很難用標(biāo)題完全表達(dá),造成了計(jì)算機(jī)誤檢或漏檢現(xiàn)象時(shí)有發(fā)生。全文檢索系統(tǒng)是自然語(yǔ)言處理技術(shù)與海量?jī)?nèi)容管理技術(shù)的完美結(jié)合,它對(duì)網(wǎng)頁(yè)、文本、電子文檔和圖像等非結(jié)構(gòu)化的信息提供強(qiáng)大的管理功能,能有效地解決以上問(wèn)題。
4 多媒體檔案文獻(xiàn)檢索。所謂多媒體檔案,是集聲、光、電多種媒體于一體的檔案。這種檔案可以更真實(shí)地記錄人們的社會(huì)活動(dòng),實(shí)現(xiàn)高密度存儲(chǔ)和遠(yuǎn)距離傳輸,得到最為理想的利用效果。多媒體檔案文獻(xiàn)檢索有案卷級(jí)檢索和文件級(jí)檢索,案卷級(jí)檢索可檢字段有案卷題名、立檔單位、主題詞、起始年代、起始月份、起始日期。文件級(jí)檔案目錄的檢索一二級(jí)分類與檔案相同,可檢字段有文件題名、責(zé)任者、主題詞、文件年代、文件月份、文件日期、文件代字、文件年號(hào)、文件編號(hào)。
三、檔案信息計(jì)算機(jī)檢索策略
運(yùn)用計(jì)算機(jī)進(jìn)行檔案信息檢索,用戶對(duì)檔案信息的需求是精細(xì)的,其感興趣的是某一檔案的具體內(nèi)容,即根據(jù)用戶的查詢表達(dá)式,如通過(guò)電子檔案著錄項(xiàng)(電子文檔號(hào)、題名與責(zé)任者、密級(jí)與保管期限、時(shí)間項(xiàng)等)在信息源中檢索出相關(guān)類型的電子檔案。檔案檢索策略是人們進(jìn)行檔案檢索的方案和計(jì)劃,編制檔案檢索策略包括選擇檢索途徑和檢索詞(檔案著項(xiàng)),及確定檢索詞(檔案著項(xiàng))之間邏輯關(guān)系。檢索策略的編制是根據(jù)用戶檢索檔案常用的邏輯思維式而制定表達(dá)方式,在計(jì)算機(jī)檔案信息檢索模塊最常用的有以下3種邏輯表達(dá)式。
一是通過(guò)計(jì)算機(jī)設(shè)置邏輯與關(guān)系(AND的表達(dá)式,限定檔案內(nèi)容之間的關(guān)系,兩個(gè)檢索詞之間一般用符號(hào)“★”表示,用戶輸入計(jì)算機(jī)的檢索詞必須滿足兩個(gè)檢索條件。例如,檢索有關(guān)員工績(jī)效考核方面的檔案信息,在檢索入口輸入“員工★績(jī)效考核”,用來(lái)表示兩個(gè)內(nèi)容之間的重合關(guān)系,對(duì)于專題與文件內(nèi)容較為明確的情況下,使用邏輯與關(guān)系有利于提高查準(zhǔn)率。 二是采用邏輯或關(guān)系(OR)表示兩個(gè)檢索詞之間的任選關(guān)系,為檔案信息利用人員提供模糊檢索功能。檢索檔案信息一般在文件題名、文件編號(hào)和檔號(hào)檢索窗口使用“+”連接多個(gè)查詢關(guān)鍵字,滿足檔案信息利用者輸入的關(guān)鍵字其中之一,即可查詢到相關(guān)的檔案資料。例如:“檔案+專業(yè)技術(shù)職務(wù)”表示檢索有關(guān)檔案人員評(píng)聘專業(yè)技術(shù)職務(wù)方面的檔案資料。檔案館(室)日常的查詢檔案資料工作中,在文件題名檢索入口最經(jīng)常使用的是邏輯或關(guān)系檢索檔案信息內(nèi)容,這種關(guān)系在檢索入口使用越多,那么計(jì)算機(jī)選擇用戶需求的檔案資料范圍就越大,一般情況下使用邏輯或關(guān)系有助于提高查全率。
三是采用表示否定關(guān)系的邏輯非關(guān)系(NOT),用排除法控制檢索結(jié)果,有利于提高查準(zhǔn)率。例如:“教師——副教授”表示檢索有關(guān)教師非副教授的檔案資料。
以上三種不同邏輯的計(jì)算機(jī)檢索法,軟件人員在設(shè)計(jì)檔案檢索程序時(shí),已經(jīng)嵌入到檔案管理軟件的檢索系統(tǒng)。檔案利用人員檢索檔案信息時(shí),在檢索入口靈活使用檢索邏輯,有助于提高檔案信息的查準(zhǔn)率和查全率。
四、檔案信息計(jì)算機(jī)檢索技巧
我國(guó)各地國(guó)家公共檔案館和機(jī)關(guān)、企事業(yè)單位檔案(館)室使用的文書(shū)檔案管理系統(tǒng),都具有檔案信息計(jì)算機(jī)檢索功能。計(jì)算機(jī)檔案信息檢索模塊最常用的邏輯與關(guān)系(AND)、邏輯或關(guān)系(OR)和邏輯非關(guān)系(NOT)3個(gè)表達(dá)式,為計(jì)算機(jī)檔案檢索系統(tǒng)的編程規(guī)范。提供給檔案信息獲取者使用的檢索界面,基本上按照《檔案著錄規(guī)則DA/T 18-1999》的著錄項(xiàng)設(shè)置檢索入口。
在檔案信息檢索中,掌握一些檢索技巧能夠極大地提高檔案利用者檔案信息檢索能力。
(一)題名表述準(zhǔn)確。檔案信息計(jì)算機(jī)檢索最基本同時(shí)也是最有效的技巧,就是選擇合適的檢索詞。檔案檢索系統(tǒng)會(huì)嚴(yán)格按照檔案利用者提交的檢索詞去檢索檔案信息。為此,檢索詞表達(dá)準(zhǔn)確是獲得良好檢索結(jié)果的必要前提。常見(jiàn)錯(cuò)誤是對(duì)檔案信息的表達(dá)不準(zhǔn)確。例如,要查找《國(guó)有企業(yè)資產(chǎn)與產(chǎn)權(quán)變動(dòng)檔案處置暫行辦法》,檢索詞可以是“國(guó)有企業(yè)資產(chǎn)與產(chǎn)權(quán)變動(dòng)檔案處置暫行辦法”,如果把“暫行辦法”檢索詞換成“管理規(guī)定”,檢索結(jié)果不能滿足需求。另一類典型的表達(dá)是不能掌握不同歷史時(shí)期檔案文件的題名用語(yǔ)。例如,
“知識(shí)青年上山下鄉(xiāng)”,在題名檢索入口輸入“知識(shí)青年農(nóng)村勞動(dòng)”,就沒(méi)有“知識(shí)青年上山下鄉(xiāng)”的文件出現(xiàn)。還有一種類型是檢索詞中包含錯(cuò)別字。例如,要查找“檔案專業(yè)任職資格”,用“檔案專業(yè)任職資格”,就可以檢索出有關(guān)檔案專業(yè)任職資格的檔案,但如果寫(xiě)錯(cuò)了字,變成“檔案職業(yè)任職資格”,其檢索準(zhǔn)確率就達(dá)不到檔案查詢的指標(biāo)要求。
(二)正確選擇檔案信息檢索項(xiàng)目。檔案軟件檢索界面,基本上包含了《檔案著錄規(guī)則DA/T 18-1999》的所有項(xiàng)目,但在檔案館(室)日常查詢檔案資料工作中,并不是所有的機(jī)讀著錄條目都要輸入檢索條件。我們把機(jī)讀著錄條目按照使用頻率分為三級(jí):一級(jí)為使用頻率較多的著錄條目,包含:題名、文件編號(hào)、責(zé)任者、檔號(hào)、文件形成時(shí)間項(xiàng)。二級(jí)為使用頻率一般的著錄條目,包含:分類號(hào)、檔案館代號(hào)、電子文檔號(hào)、縮微號(hào)、主題詞或關(guān)鍵詞、密級(jí)與保管期限。三級(jí)為使用頻率較少的著錄條目,包含:并列題名、附件、稿本和文種、項(xiàng)載體類型、數(shù)量及單位。
(三)檢索詞的主題關(guān)聯(lián)與簡(jiǎn)練。為提高檔案信息資料的查全率,在文件題名檢索入口把查詢檔案的主題提煉成簡(jiǎn)單的,而且與希望找到的信息內(nèi)容主題關(guān)聯(lián)的檢索詞,檔案利用者最好學(xué)會(huì)使用兩個(gè)關(guān)鍵詞檢索,兩個(gè)關(guān)鍵詞中間用“+”關(guān)聯(lián),并且合理地與使用頻率較多的一級(jí)著錄條目進(jìn)行檢索條件組合。例如,查詢《城市建設(shè)檔案歸屬與流向暫行辦法》檔發(fā)字(1997)20號(hào),國(guó)家檔案局1997年7月28日印發(fā)。檢索條件組合如下:
題名:“城市+建設(shè)檔案+歸屬”
責(zé)任者:國(guó)家檔案局
時(shí)間:199701-199812
或題名:“城市建設(shè)+檔案+流向”
文件編號(hào):檔發(fā)字(1997)
時(shí)間:19970101-19971231
輸入檢索主題的質(zhì)量關(guān)系到文件的查準(zhǔn)率。實(shí)踐中得出經(jīng)驗(yàn),題名檢索入口每個(gè)關(guān)聯(lián)詞組不要超多5個(gè)漢字,因?yàn)榇蠖鄶?shù)的檔案利用者輸入漢字越多與計(jì)算機(jī)文件級(jí)數(shù)據(jù)庫(kù)匹配運(yùn)算吻合機(jī)率越低。在檔案檢索中,檔案信息利用者要養(yǎng)成使用多個(gè)關(guān)鍵詞檢索的習(xí)慣,在檔案信息檢索時(shí)大多數(shù)情況下使用兩個(gè)關(guān)鍵詞檢索已經(jīng)足夠了,關(guān)鍵詞與關(guān)鍵詞之間以“+”隔開(kāi),關(guān)鍵詞以2至4個(gè)漢字為宜。
檔案信息檢索正向全文文本、多媒體、多載體、跨平臺(tái)等新型信息檢索的方向發(fā)展,為提高檔案信息的利用效果,檔案信息利用者掌握檔案信息檢索知識(shí)與檢索技巧能極大地提高檔案信息的查全率和查準(zhǔn)率,檔案工作服務(wù)能力得到顯著提高。
相關(guān)文章:
1.淺析檔案信息數(shù)據(jù)庫(kù)的建設(shè)