在檔案管理工作中漢字識別技術(shù)有著怎樣的作用呢?
來源:www.lheraulttraitlibre.com 發(fā)布時間:2018年11月15日>
漢字辨認(rèn)技能(簡稱OCR)可以理解為是讓計算機認(rèn)字的技能。它經(jīng)過光電信號轉(zhuǎn)化,即文本數(shù)據(jù)。
一、漢字辨認(rèn)技能的運用價值 漢字辨認(rèn)技能的運用價值首要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息,為文本數(shù)據(jù)管理技能供給 豐厚的數(shù)據(jù)源。
首要,從庫存檔案的情況來看,近幾十年來構(gòu)成的很多印刷漢字檔案記載了咱們黨和國家的 重要前史,對我國現(xiàn)代化作業(yè)的開展,對精神文明和物質(zhì)文明的建造都有著非常重要的運用 價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既 使經(jīng)過掃描以圖畫辦法存儲于計算機中,檢索運用也有不便利之處,難于滿意現(xiàn)代社會對檔案 信息的多種運用需求。其次,從辦公自動化的開展情況來看,每年接納的檔案中依然會有相 當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟掉損壞等。漢字辨認(rèn)技能的運用價值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息,為全文檢索供給數(shù) 據(jù),使深層次的開發(fā)運用成為或許,更好地為現(xiàn)代化建造作業(yè)效勞。
另一方面,供給了一種新的檔 案目錄數(shù)據(jù)的錄入辦法。
運用計算機以來,漢字錄入只要一種辦法,即健盤錄入。盡管現(xiàn)在漢字鍵盤錄入的辦法有許 多種,并且日趨簡潔便利,已是年輕人必備的職業(yè)技能,可是它究竟歸于一種技能,不只需 要反響活絡(luò),手指靈敏,并且要熟記錄入的準(zhǔn)則、辦法和方法。這關(guān)于在檔案部分占有適當(dāng) 份額的中老年同志來說,把握起來確有難度。因而,鍵盤錄入辦法依然是影響一些檔案部分 樹立檔案目錄信息數(shù)據(jù)庫的要素之一。OCR軟件為咱們供給了一條新的途徑。它經(jīng)過“遷延 ”的辦法,將屏幕上文件的目錄項如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相 應(yīng)字段中去,簡略易學(xué),一看就會。惋惜的是手藝“遷延”速度較慢,并且需求即時掃描或 調(diào)用圖畫數(shù)據(jù),所以單一運用這種辦法錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它究竟是一種新的錄入辦法,為樹立檔案目錄信息數(shù)據(jù)庫供給了一條史無前例的途徑。并且 ,假如運用OCR軟件一起樹立新式的綜合檔案信息數(shù)據(jù)庫,例如包含檔案的文件目錄、圖畫 和文本等,作用就此較抱負(fù)了。
二、漢字辨認(rèn)后生成的文本數(shù)據(jù)的特點問題。
原始性是檔案的根本特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)是根據(jù)檔案的根源信息,即固定在紙 質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、辨認(rèn)、校正、修改等工序后構(gòu)成的復(fù)制加工品, 因而不具有檔案的原始性。
知識性是檔案的又一個特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)假如不計算人工校正后依然或許存 在的細(xì)小差錯,應(yīng)該說具有與檔案原件平等的內(nèi)容,因而具有檔案的知識性。
漢字辨認(rèn)后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特其他物理辦法從頭記錄在特其他載體之上, 比以文字的辦法記錄在紙質(zhì)載體之上更具有便于傳遞、接納、存儲、運用以及不磨損、不丟 失等特點。因而具有更強的信息性。
漢字辨認(rèn)后生成的文本數(shù)據(jù)應(yīng)該說,它是一種新式的檔案一次信息的復(fù)制品或編研開發(fā)作用 。但作為一種新式的復(fù)制品或編研開發(fā)作用,因其生成的意圖不同,又具有兩種不同的特點 :當(dāng)以供給運用為意圖經(jīng)過漢字辨認(rèn)樹立文本數(shù)據(jù)庫時,其文本數(shù)據(jù)具有類似于匯編類檔案 編研作用的特點;當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機構(gòu)沿革、文件匯編等 為意圖進(jìn)行漢字辨認(rèn)時,其文本數(shù)據(jù)不只具有類似于檔案編研作用的特點,并且具有檔案原 始性的根本特點,由于它們是印刷品或出版物的根源信息。
由此可見,漢字辨認(rèn)后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案特點的新式檔案信息。
三、漢字辨認(rèn)技能的運用辦法
漢字辨認(rèn)技能在檔案管理作業(yè)中的運用,根據(jù)其現(xiàn)在的技能水平首要適用于近幾十年來印刷 漢字檔案內(nèi)容的辨認(rèn),圖畫、文本數(shù)據(jù)的構(gòu)成、存儲和目錄數(shù)據(jù)的錄入等項作業(yè)。首要的應(yīng) 用辦法有:
(一)運用者閱覽紙質(zhì)檔案的內(nèi)容之后,對其所需求的內(nèi)容進(jìn)行掃描和漢字辨認(rèn),或打印出統(tǒng) 一格局的運用摘抄,或直接供給文本復(fù)制。
這種運用辦法的長處首要有:
1便運用戶,可削減信息運用過程中的重復(fù)勞動;
2不給檔 案人員添加建庫的作業(yè)擔(dān)負(fù);
3節(jié)約建庫所需的經(jīng)費開支。其缺陷首要有:
1存在對同一檔案內(nèi)容重復(fù)進(jìn)行掃 描和漢字辨認(rèn)的或許性。
2不能為全文 檢索供給數(shù)據(jù),完成深層次開發(fā)檔案信息資源的意圖;
(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建造的一條新路,可以使更多的人員從事輸入作業(yè),但輸入速度不甚抱負(fù),并且本錢費用相對較高。
(三)掃描、保存圖畫并供給運用,只針對運用者需求的圖畫內(nèi)容進(jìn)行漢字辨認(rèn)等運用效勞。
這種辦法必須在已有文件目錄的前提下運用。其長處首要有:1具有供給原件和進(jìn)步信息 運用功率的兩層優(yōu)勢;2檔案人員不承當(dāng)漢字辨認(rèn)后生成的文本數(shù)據(jù)的保護(hù)作業(yè)。其缺陷 首要有:1同第一種運用辦法的缺陷。2漢字辨認(rèn)技能要求圖畫的光學(xué)分辨率較高,一般為3000dpi,而一般圖畫的分辨率僅為150dpi,因而所需的存儲空間較大,約是一般圖畫的2 、3倍,那么,所需的存儲本錢也要高得多。這種高價值的圖畫存儲僅用來滿意用戶運用識 其他需求好像有點因小失大。因而低分辨率的圖畫也能進(jìn)行漢字辨認(rèn),只是辨認(rèn)率相對較低 罷了。咱們也曾做過比照試驗,同一頁印刷質(zhì)量杰出的B5紙型文件約500字,以300dpi進(jìn)行掃描,辨認(rèn)率為100%;以150dpi進(jìn)行掃描,辨認(rèn)率為99.4%(誤識3字)。這關(guān)于一般用戶而言無所謂的。
(四)樹立文本數(shù)據(jù)庫。這種辦法也應(yīng)在已有文件目錄的條件下運用。其長處首要有:
1節(jié)約存儲空間和存儲本錢。仍以一頁B5型紙約500漢字的文件為例,以文本辦法存儲約需1000字節(jié);以圖畫辦法存儲約需25000字節(jié)。因而,同量漢字的文本辦法存儲比圖畫辦法存儲本錢低得多。
2為全文檢索供給數(shù)據(jù),可以完成深層次開發(fā)運用檔案信息資源的意圖。
其缺陷首要有:
1樹立文本數(shù)據(jù)庫的作業(yè)量較大。
2不能滿意用戶閱覽檔案原件的需求。
3由于沒有圖畫隨時供給根據(jù),不便利于對文本數(shù)據(jù)的準(zhǔn)確性進(jìn)行核實。
(五)輸入目錄并保存圖畫。
(六)輸入目錄、樹立文本數(shù)據(jù)庫。
(七)保存圖畫、樹立文本件數(shù)據(jù)。
(八)輸入目錄、保存圖畫并樹立文本數(shù)據(jù)庫。
這是充分發(fā)揮OCR軟件功用,深層次開發(fā)運用檔案信息資源的運用辦法。但工程量較大,人力、資金需求較多,建庫周期較長。
跟著漢字辨認(rèn)技能水平的進(jìn)步和運用的遍及,或許還會發(fā)生新的應(yīng)
用辦法,但無論運用哪一 種辦法,都必須契合本單位檔案管理作業(yè)的實踐,統(tǒng)籌考慮檔案情況、人員配備、經(jīng)費才干、辦公自動化水平、檔案現(xiàn)代化建造開展規(guī)劃等方面的要素,以實在進(jìn)步檔案信息資源開發(fā)運用才干為意圖,這樣才干收到事半功倍的作用。
一、漢字辨認(rèn)技能的運用價值 漢字辨認(rèn)技能的運用價值首要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息,為文本數(shù)據(jù)管理技能供給 豐厚的數(shù)據(jù)源。
首要,從庫存檔案的情況來看,近幾十年來構(gòu)成的很多印刷漢字檔案記載了咱們黨和國家的 重要前史,對我國現(xiàn)代化作業(yè)的開展,對精神文明和物質(zhì)文明的建造都有著非常重要的運用 價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既 使經(jīng)過掃描以圖畫辦法存儲于計算機中,檢索運用也有不便利之處,難于滿意現(xiàn)代社會對檔案 信息的多種運用需求。其次,從辦公自動化的開展情況來看,每年接納的檔案中依然會有相 當(dāng)數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟掉損壞等。漢字辨認(rèn)技能的運用價值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索運用的活信息,為全文檢索供給數(shù) 據(jù),使深層次的開發(fā)運用成為或許,更好地為現(xiàn)代化建造作業(yè)效勞。
另一方面,供給了一種新的檔 案目錄數(shù)據(jù)的錄入辦法。
運用計算機以來,漢字錄入只要一種辦法,即健盤錄入。盡管現(xiàn)在漢字鍵盤錄入的辦法有許 多種,并且日趨簡潔便利,已是年輕人必備的職業(yè)技能,可是它究竟歸于一種技能,不只需 要反響活絡(luò),手指靈敏,并且要熟記錄入的準(zhǔn)則、辦法和方法。這關(guān)于在檔案部分占有適當(dāng) 份額的中老年同志來說,把握起來確有難度。因而,鍵盤錄入辦法依然是影響一些檔案部分 樹立檔案目錄信息數(shù)據(jù)庫的要素之一。OCR軟件為咱們供給了一條新的途徑。它經(jīng)過“遷延 ”的辦法,將屏幕上文件的目錄項如標(biāo)題、文號、責(zé)任者等直接移植到檔案目錄數(shù)據(jù)庫的相 應(yīng)字段中去,簡略易學(xué),一看就會。惋惜的是手藝“遷延”速度較慢,并且需求即時掃描或 調(diào)用圖畫數(shù)據(jù),所以單一運用這種辦法錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它究竟是一種新的錄入辦法,為樹立檔案目錄信息數(shù)據(jù)庫供給了一條史無前例的途徑。并且 ,假如運用OCR軟件一起樹立新式的綜合檔案信息數(shù)據(jù)庫,例如包含檔案的文件目錄、圖畫 和文本等,作用就此較抱負(fù)了。
二、漢字辨認(rèn)后生成的文本數(shù)據(jù)的特點問題。
原始性是檔案的根本特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)是根據(jù)檔案的根源信息,即固定在紙 質(zhì)載體上的漢字信息進(jìn)行加工處理:掃描、辨認(rèn)、校正、修改等工序后構(gòu)成的復(fù)制加工品, 因而不具有檔案的原始性。
知識性是檔案的又一個特點。漢字辨認(rèn)后生成的文本數(shù)據(jù)假如不計算人工校正后依然或許存 在的細(xì)小差錯,應(yīng)該說具有與檔案原件平等的內(nèi)容,因而具有檔案的知識性。
漢字辨認(rèn)后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特其他物理辦法從頭記錄在特其他載體之上, 比以文字的辦法記錄在紙質(zhì)載體之上更具有便于傳遞、接納、存儲、運用以及不磨損、不丟 失等特點。因而具有更強的信息性。
漢字辨認(rèn)后生成的文本數(shù)據(jù)應(yīng)該說,它是一種新式的檔案一次信息的復(fù)制品或編研開發(fā)作用 。但作為一種新式的復(fù)制品或編研開發(fā)作用,因其生成的意圖不同,又具有兩種不同的特點 :當(dāng)以供給運用為意圖經(jīng)過漢字辨認(rèn)樹立文本數(shù)據(jù)庫時,其文本數(shù)據(jù)具有類似于匯編類檔案 編研作用的特點;當(dāng)以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機構(gòu)沿革、文件匯編等 為意圖進(jìn)行漢字辨認(rèn)時,其文本數(shù)據(jù)不只具有類似于檔案編研作用的特點,并且具有檔案原 始性的根本特點,由于它們是印刷品或出版物的根源信息。
由此可見,漢字辨認(rèn)后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案特點的新式檔案信息。
三、漢字辨認(rèn)技能的運用辦法
漢字辨認(rèn)技能在檔案管理作業(yè)中的運用,根據(jù)其現(xiàn)在的技能水平首要適用于近幾十年來印刷 漢字檔案內(nèi)容的辨認(rèn),圖畫、文本數(shù)據(jù)的構(gòu)成、存儲和目錄數(shù)據(jù)的錄入等項作業(yè)。首要的應(yīng) 用辦法有:
(一)運用者閱覽紙質(zhì)檔案的內(nèi)容之后,對其所需求的內(nèi)容進(jìn)行掃描和漢字辨認(rèn),或打印出統(tǒng) 一格局的運用摘抄,或直接供給文本復(fù)制。
這種運用辦法的長處首要有:
1便運用戶,可削減信息運用過程中的重復(fù)勞動;
2不給檔 案人員添加建庫的作業(yè)擔(dān)負(fù);
3節(jié)約建庫所需的經(jīng)費開支。其缺陷首要有:
1存在對同一檔案內(nèi)容重復(fù)進(jìn)行掃 描和漢字辨認(rèn)的或許性。
2不能為全文 檢索供給數(shù)據(jù),完成深層次開發(fā)檔案信息資源的意圖;
(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建造的一條新路,可以使更多的人員從事輸入作業(yè),但輸入速度不甚抱負(fù),并且本錢費用相對較高。
(三)掃描、保存圖畫并供給運用,只針對運用者需求的圖畫內(nèi)容進(jìn)行漢字辨認(rèn)等運用效勞。
這種辦法必須在已有文件目錄的前提下運用。其長處首要有:1具有供給原件和進(jìn)步信息 運用功率的兩層優(yōu)勢;2檔案人員不承當(dāng)漢字辨認(rèn)后生成的文本數(shù)據(jù)的保護(hù)作業(yè)。其缺陷 首要有:1同第一種運用辦法的缺陷。2漢字辨認(rèn)技能要求圖畫的光學(xué)分辨率較高,一般為3000dpi,而一般圖畫的分辨率僅為150dpi,因而所需的存儲空間較大,約是一般圖畫的2 、3倍,那么,所需的存儲本錢也要高得多。這種高價值的圖畫存儲僅用來滿意用戶運用識 其他需求好像有點因小失大。因而低分辨率的圖畫也能進(jìn)行漢字辨認(rèn),只是辨認(rèn)率相對較低 罷了。咱們也曾做過比照試驗,同一頁印刷質(zhì)量杰出的B5紙型文件約500字,以300dpi進(jìn)行掃描,辨認(rèn)率為100%;以150dpi進(jìn)行掃描,辨認(rèn)率為99.4%(誤識3字)。這關(guān)于一般用戶而言無所謂的。
(四)樹立文本數(shù)據(jù)庫。這種辦法也應(yīng)在已有文件目錄的條件下運用。其長處首要有:
1節(jié)約存儲空間和存儲本錢。仍以一頁B5型紙約500漢字的文件為例,以文本辦法存儲約需1000字節(jié);以圖畫辦法存儲約需25000字節(jié)。因而,同量漢字的文本辦法存儲比圖畫辦法存儲本錢低得多。
2為全文檢索供給數(shù)據(jù),可以完成深層次開發(fā)運用檔案信息資源的意圖。
其缺陷首要有:
1樹立文本數(shù)據(jù)庫的作業(yè)量較大。
2不能滿意用戶閱覽檔案原件的需求。
3由于沒有圖畫隨時供給根據(jù),不便利于對文本數(shù)據(jù)的準(zhǔn)確性進(jìn)行核實。
(五)輸入目錄并保存圖畫。
(六)輸入目錄、樹立文本數(shù)據(jù)庫。
(七)保存圖畫、樹立文本件數(shù)據(jù)。
(八)輸入目錄、保存圖畫并樹立文本數(shù)據(jù)庫。
這是充分發(fā)揮OCR軟件功用,深層次開發(fā)運用檔案信息資源的運用辦法。但工程量較大,人力、資金需求較多,建庫周期較長。
跟著漢字辨認(rèn)技能水平的進(jìn)步和運用的遍及,或許還會發(fā)生新的應(yīng)
用辦法,但無論運用哪一 種辦法,都必須契合本單位檔案管理作業(yè)的實踐,統(tǒng)籌考慮檔案情況、人員配備、經(jīng)費才干、辦公自動化水平、檔案現(xiàn)代化建造開展規(guī)劃等方面的要素,以實在進(jìn)步檔案信息資源開發(fā)運用才干為意圖,這樣才干收到事半功倍的作用。