當(dāng)前位置：首頁?信息動態(tài) ?行業(yè)動態(tài)

在檔案管理工作中漢字識別技術(shù)有著怎樣的作用呢？

來源：www.lheraulttraitlibre.com 發(fā)布時間：2018年11月15日

漢字辨認(rèn)技能(簡稱OCR)可以理解為是讓計算機認(rèn)字的技能。它經(jīng)過光電信號轉(zhuǎn)化，即文本數(shù)據(jù)。
　　一、漢字辨認(rèn)技能的運用價值 漢字辨認(rèn)技能的運用價值首要體現(xiàn)在兩個方面：
　　一方面，把紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息，為文本數(shù)據(jù)管理技能供給豐厚的數(shù)據(jù)源。
　　首要，從庫存檔案的情況來看，近幾十年來構(gòu)成的很多印刷漢字檔案記載了咱們黨和國家的重要前史，對我國現(xiàn)代化作業(yè)的開展，對精神文明和物質(zhì)文明的建造都有著非常重要的運用價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù)，或者說都只是固定在紙質(zhì)載體上的死信息。既使經(jīng)過掃描以圖畫辦法存儲于計算機中，檢索運用也有不便利之處，難于滿意現(xiàn)代社會對檔案信息的多種運用需求。其次，從辦公自動化的開展情況來看，每年接納的檔案中依然會有相當(dāng)數(shù)量的檔案沒有文本文件，或為外單位來文，或為丟掉損壞等。漢字辨認(rèn)技能的運用價值就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息，為全文檢索供給數(shù) 據(jù)，使深層次的開發(fā)運用成為或許，更好地為現(xiàn)代化建造作業(yè)效勞。
　　另一方面，供給了一種新的檔案目錄數(shù)據(jù)的錄入辦法。
　　運用計算機以來，漢字錄入只要一種辦法，即健盤錄入。盡管現(xiàn)在漢字鍵盤錄入的辦法有許多種，并且日趨簡潔便利，已是年輕人必備的職業(yè)技能，可是它究竟歸于一種技能，不只需要反響活絡(luò)，手指靈敏，并且要熟記錄入的準(zhǔn)則、辦法和方法。這關(guān)于在檔案部分占有適當(dāng) 份額的中老年同志來說，把握起來確有難度。因而，鍵盤錄入辦法依然是影響一些檔案部分樹立檔案目錄信息數(shù)據(jù)庫的要素之一。OCR軟件為咱們供給了一條新的途徑。它經(jīng)過“遷延 ”的辦法，將屏幕上文件的目錄項如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相應(yīng)字段中去，簡略易學(xué)，一看就會。惋惜的是手藝“遷延”速度較慢，并且需求即時掃描或調(diào)用圖畫數(shù)據(jù)，所以單一運用這種辦法錄入檔案目錄，速度不及熟練錄入員的鍵入速度。但它究竟是一種新的錄入辦法，為樹立檔案目錄信息數(shù)據(jù)庫供給了一條史無前例的途徑。并且，假如運用OCR軟件一起樹立新式的綜合檔案信息數(shù)據(jù)庫，例如包含檔案的文件目錄、圖畫和文本等，作用就此較抱負(fù)了。
　　二、漢字辨認(rèn)后生成的文本數(shù)據(jù)的特點問題。
　　原始性是檔案的根本特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)是根據(jù)檔案的根源信息，即固定在紙質(zhì)載體上的漢字信息進(jìn)行加工處理：掃描、辨認(rèn)、校正、修改等工序后構(gòu)成的復(fù)制加工品，因而不具有檔案的原始性。
　　知識性是檔案的又一個特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)假如不計算人工校正后依然或許存在的細(xì)小差錯，應(yīng)該說具有與檔案原件平等的內(nèi)容，因而具有檔案的知識性。
　　漢字辨認(rèn)后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特其他物理辦法從頭記錄在特其他載體之上，比以文字的辦法記錄在紙質(zhì)載體之上更具有便于傳遞、接納、存儲、運用以及不磨損、不丟失等特點。因而具有更強的信息性。
　　漢字辨認(rèn)后生成的文本數(shù)據(jù)應(yīng)該說，它是一種新式的檔案一次信息的復(fù)制品或編研開發(fā)作用。但作為一種新式的復(fù)制品或編研開發(fā)作用，因其生成的意圖不同，又具有兩種不同的特點：當(dāng)以供給運用為意圖經(jīng)過漢字辨認(rèn)樹立文本數(shù)據(jù)庫時，其文本數(shù)據(jù)具有類似于匯編類檔案編研作用的特點;當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機構(gòu)沿革、文件匯編等為意圖進(jìn)行漢字辨認(rèn)時，其文本數(shù)據(jù)不只具有類似于檔案編研作用的特點，并且具有檔案原始性的根本特點，由于它們是印刷品或出版物的根源信息。
　　由此可見，漢字辨認(rèn)后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案特點的新式檔案信息。
　　三、漢字辨認(rèn)技能的運用辦法
　　漢字辨認(rèn)技能在檔案管理作業(yè)中的運用，根據(jù)其現(xiàn)在的技能水平首要適用于近幾十年來印刷漢字檔案內(nèi)容的辨認(rèn)，圖畫、文本數(shù)據(jù)的構(gòu)成、存儲和目錄數(shù)據(jù)的錄入等項作業(yè)。首要的應(yīng) 用辦法有：
　　(一)運用者閱覽紙質(zhì)檔案的內(nèi)容之后，對其所需求的內(nèi)容進(jìn)行掃描和漢字辨認(rèn)，或打印出統(tǒng) 一格局的運用摘抄，或直接供給文本復(fù)制。
　　這種運用辦法的長處首要有：
　　1便運用戶，可削減信息運用過程中的重復(fù)勞動;
　　2不給檔案人員添加建庫的作業(yè)擔(dān)負(fù);
　　3節(jié)約建庫所需的經(jīng)費開支。其缺陷首要有：
　　1存在對同一檔案內(nèi)容重復(fù)進(jìn)行掃描和漢字辨認(rèn)的或許性。
　　2不能為全文檢索供給數(shù)據(jù)，完成深層次開發(fā)檔案信息資源的意圖;
　　(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建造的一條新路，可以使更多的人員從事輸入作業(yè)，但輸入速度不甚抱負(fù)，并且本錢費用相對較高。
　　(三)掃描、保存圖畫并供給運用，只針對運用者需求的圖畫內(nèi)容進(jìn)行漢字辨認(rèn)等運用效勞。
　　這種辦法必須在已有文件目錄的前提下運用。其長處首要有：1具有供給原件和進(jìn)步信息運用功率的兩層優(yōu)勢;2檔案人員不承當(dāng)漢字辨認(rèn)后生成的文本數(shù)據(jù)的保護(hù)作業(yè)。其缺陷首要有：1同第一種運用辦法的缺陷。2漢字辨認(rèn)技能要求圖畫的光學(xué)分辨率較高，一般為3000dpi，而一般圖畫的分辨率僅為150dpi，因而所需的存儲空間較大，約是一般圖畫的2 、3倍，那么，所需的存儲本錢也要高得多。這種高價值的圖畫存儲僅用來滿意用戶運用識其他需求好像有點因小失大。因而低分辨率的圖畫也能進(jìn)行漢字辨認(rèn)，只是辨認(rèn)率相對較低罷了。咱們也曾做過比照試驗，同一頁印刷質(zhì)量杰出的B5紙型文件約500字，以300dpi進(jìn)行掃描，辨認(rèn)率為100%;以150dpi進(jìn)行掃描，辨認(rèn)率為99.4%(誤識3字)。這關(guān)于一般用戶而言無所謂的。
　　(四)樹立文本數(shù)據(jù)庫。這種辦法也應(yīng)在已有文件目錄的條件下運用。其長處首要有：
　　1節(jié)約存儲空間和存儲本錢。仍以一頁B5型紙約500漢字的文件為例，以文本辦法存儲約需1000字節(jié);以圖畫辦法存儲約需25000字節(jié)。因而，同量漢字的文本辦法存儲比圖畫辦法存儲本錢低得多。
　　2為全文檢索供給數(shù)據(jù)，可以完成深層次開發(fā)運用檔案信息資源的意圖。
　　其缺陷首要有：
　　1樹立文本數(shù)據(jù)庫的作業(yè)量較大。
　　2不能滿意用戶閱覽檔案原件的需求。
　　3由于沒有圖畫隨時供給根據(jù)，不便利于對文本數(shù)據(jù)的準(zhǔn)確性進(jìn)行核實。
　　(五)輸入目錄并保存圖畫。
　　(六)輸入目錄、樹立文本數(shù)據(jù)庫。
　　(七)保存圖畫、樹立文本件數(shù)據(jù)。
　　(八)輸入目錄、保存圖畫并樹立文本數(shù)據(jù)庫。
　　這是充分發(fā)揮OCR軟件功用，深層次開發(fā)運用檔案信息資源的運用辦法。但工程量較大，人力、資金需求較多，建庫周期較長。
　　跟著漢字辨認(rèn)技能水平的進(jìn)步和運用的遍及，或許還會發(fā)生新的應(yīng)
　　用辦法，但無論運用哪一種辦法，都必須契合本單位檔案管理作業(yè)的實踐，統(tǒng)籌考慮檔案情況、人員配備、經(jīng)費才干、辦公自動化水平、檔案現(xiàn)代化建造開展規(guī)劃等方面的要素，以實在進(jìn)步檔案信息資源開發(fā)運用才干為意圖，這樣才干收到事半功倍的作用。

上一條：司法所的“四化”規(guī)定有效的提高檔案管理效率

下一條：在現(xiàn)在加強聲像的檔案管理是刻不容緩的事項

国产欧美日韩一区二区国内-日韩 国产 欧美 三级-日韩欧美国产一区二区三区在线-一区二区三区国产日韩欧美在线

国产欧美日韩一区二区国内-日韩国产欧美三级-日韩欧美国产一区二区三区在线-一区二区三区国产日韩欧美在线