檔案數(shù)字化的標(biāo)準(zhǔn)規(guī)范是怎樣的
來源:www.lheraulttraitlibre.com 發(fā)布時間:2020年12月05日>
檔案數(shù)字化是指“利用數(shù)據(jù)庫技術(shù)、數(shù)據(jù)壓縮技術(shù)、高速掃描技術(shù)等技術(shù)手段,將紙質(zhì)文件、音像文件等傳統(tǒng)媒體文件和歸檔電子文件系統(tǒng)地組織成一個結(jié)構(gòu)有序的檔案信息庫?!睓n案數(shù)字化可以節(jié)省檔案的存儲空間,減輕庫房的壓力,減少原始檔案頻繁使用帶來的磨損,妥善解決珍貴檔案的利用問題,有助于保護(hù)原始檔案,尤其是珍貴檔案的保存。目前,數(shù)字化在中檔案事業(yè)中發(fā)揮著重要作用,已經(jīng)成為檔案工作發(fā)展的必然趨勢。
二、文件數(shù)字化和掃描技術(shù)
文件數(shù)字化實現(xiàn)文本輸入,主要采用掃描方式將紙質(zhì)文檔和文件轉(zhuǎn)換成數(shù)字形式。掃描處理是通過中高速掃描儀和專用掃描軟件,將檔案分批轉(zhuǎn)化整理歸類成圖像文件,并自動實現(xiàn)圖像壓縮存儲的過程。
(一)中國家標(biāo)準(zhǔn)
除了《電子文件歸檔與管理規(guī)范》,檔案數(shù)字化的直接標(biāo)準(zhǔn)是《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》。本技術(shù)規(guī)范指出“掃描應(yīng)根據(jù)文件格式的大小選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀進(jìn)行。大格式文件可以使用大格式數(shù)字平臺,或者縮微后的數(shù)字膠片轉(zhuǎn)換設(shè)備進(jìn)行掃描,也可以在小格式掃描后通過圖像拼接進(jìn)行處理。”另外,“紙張條件差,太薄、太軟或太厚的文件要用平板掃描;紙質(zhì)條件好的文件可以高速掃描,提高工作效率?!?br />
掃描顏色模式一般包括黑白二進(jìn)制、灰度、彩色等。通常采用黑白二進(jìn)制。具體可細(xì)分為三種:“黑白頁、字跡清晰無插圖的文件可用黑白二進(jìn)制模式掃描。黑白頁但字跡清晰度或插圖較差的文件,以及多色頁的文件可以用灰度掃描模式。中這一頁有一個紅色的頭像、一個印章或一個文件,上面有黑白照片、彩色照片和彩色插圖??梢愿鶕?jù)需要進(jìn)行彩色掃描模式。”
原則上,掃描分辨率參數(shù)的選擇應(yīng)基于清晰完整的掃描圖像,而不影響圖像的利用率效果。由于高分辨率使文件易于復(fù)制,基于此,中,國家標(biāo)準(zhǔn)規(guī)定,掃描黑白二進(jìn)制、灰度和彩色模式文件時,分辨率一般100dpi。在小、密、清晰度差等特殊情況下,可以適當(dāng)提高分辨率。對于需要OCR漢字識別的文件,掃描分辨率一般建議選擇200dpi。
(二)中的實際操作
在中,的實際工作中,根據(jù)檔案的不同情況,檔案部門一般使用各種掃描儀進(jìn)行掃描,而數(shù)碼相機很少使用。此外,實際掃描中受文件狀態(tài)或掃描設(shè)備的限制,也有一些文件暫時無法數(shù)字化,如紙張過于破損易碎,或一些過大的圖紙等。而這些只有在設(shè)備或者技術(shù)先進(jìn)之后才能解決。
顏色模式的選擇取決于現(xiàn)有設(shè)備和文件本身的狀態(tài),可以遵循循序漸進(jìn)的原則。例如,杭州市檔案館紙質(zhì)檔案數(shù)字化時,一階段主要是黑白掃描,第二階段是紅頭文件和其他有紅色印章的文件的彩色掃描,第三階段是全彩色掃描。毫無疑問,彩色掃描具有更豐富的層次和更高的清晰度,可以更真實地顯示文件的原貌。
分辨率的選擇和設(shè)備有很大關(guān)系,不同地區(qū)不同部門也不一樣。比如中, 杭州市檔案館紙質(zhì)檔案數(shù)字化項目一期將掃描分辨率設(shè)為300dpi,浙江省檔案館的數(shù)字掃描分辨率一般在200 ~ 300 dpi左右,有的高達(dá)600 dpi;但在一些設(shè)備相對落后的部門和地區(qū),掃描分辨率大多是按照國家標(biāo)準(zhǔn)設(shè)定的,甚至很多部門達(dá)不到200dpi。分辨率越高,掃描的圖像會越清晰,但同時必須考慮圖像文件的大小。
(3)掃描技術(shù)的發(fā)展趨勢
顏色模式選擇和分辨率選擇是中掃描技術(shù)重要的方面
彩色模式無疑會向彩色掃描方向發(fā)展,分辨率的選擇需要根據(jù)實際業(yè)務(wù)靈活設(shè)置。一般為了滿足網(wǎng)絡(luò)查詢和利用的需求,黑白圖像可以滿足200dpi的要求,彩色圖像的掃描分辨率可以更低。具體參數(shù)可以根據(jù)掃描清晰度和質(zhì)量因素綜合選擇。對于一些特殊用途,如舉辦展覽,可以采用更高的掃描分辨率。值得注意的是,分辨率既不能太低,也不能太高。例如,福建采用了50dpi的掃描分辨率。雖然容量小,成本低,但無法實現(xiàn)在線查詢和利用,相當(dāng)于做了無用功;另一方面,如果一味追求過高的分辨率,會導(dǎo)致容量過大,也是網(wǎng)絡(luò)資源傳播的負(fù)擔(dān)。
檔案數(shù)字化后,還應(yīng)考慮字符識別(OCR)的應(yīng)用。一般來說,字符識別主要用于全文檢索,而不是真正將掃描的圖像文件還原為文檔。因此,在這方面,不要根據(jù)OCR的識別率來設(shè)置掃描分辨率。《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》建議需要OCR識別的圖像文件分辨率應(yīng)該200dpi,這是一個比較中的標(biāo)準(zhǔn)。
二、文件數(shù)字化和掃描技術(shù)
文件數(shù)字化實現(xiàn)文本輸入,主要采用掃描方式將紙質(zhì)文檔和文件轉(zhuǎn)換成數(shù)字形式。掃描處理是通過中高速掃描儀和專用掃描軟件,將檔案分批轉(zhuǎn)化整理歸類成圖像文件,并自動實現(xiàn)圖像壓縮存儲的過程。
(一)中國家標(biāo)準(zhǔn)
除了《電子文件歸檔與管理規(guī)范》,檔案數(shù)字化的直接標(biāo)準(zhǔn)是《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》。本技術(shù)規(guī)范指出“掃描應(yīng)根據(jù)文件格式的大小選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀進(jìn)行。大格式文件可以使用大格式數(shù)字平臺,或者縮微后的數(shù)字膠片轉(zhuǎn)換設(shè)備進(jìn)行掃描,也可以在小格式掃描后通過圖像拼接進(jìn)行處理。”另外,“紙張條件差,太薄、太軟或太厚的文件要用平板掃描;紙質(zhì)條件好的文件可以高速掃描,提高工作效率?!?br />
掃描顏色模式一般包括黑白二進(jìn)制、灰度、彩色等。通常采用黑白二進(jìn)制。具體可細(xì)分為三種:“黑白頁、字跡清晰無插圖的文件可用黑白二進(jìn)制模式掃描。黑白頁但字跡清晰度或插圖較差的文件,以及多色頁的文件可以用灰度掃描模式。中這一頁有一個紅色的頭像、一個印章或一個文件,上面有黑白照片、彩色照片和彩色插圖??梢愿鶕?jù)需要進(jìn)行彩色掃描模式。”
原則上,掃描分辨率參數(shù)的選擇應(yīng)基于清晰完整的掃描圖像,而不影響圖像的利用率效果。由于高分辨率使文件易于復(fù)制,基于此,中,國家標(biāo)準(zhǔn)規(guī)定,掃描黑白二進(jìn)制、灰度和彩色模式文件時,分辨率一般100dpi。在小、密、清晰度差等特殊情況下,可以適當(dāng)提高分辨率。對于需要OCR漢字識別的文件,掃描分辨率一般建議選擇200dpi。
(二)中的實際操作
在中,的實際工作中,根據(jù)檔案的不同情況,檔案部門一般使用各種掃描儀進(jìn)行掃描,而數(shù)碼相機很少使用。此外,實際掃描中受文件狀態(tài)或掃描設(shè)備的限制,也有一些文件暫時無法數(shù)字化,如紙張過于破損易碎,或一些過大的圖紙等。而這些只有在設(shè)備或者技術(shù)先進(jìn)之后才能解決。
顏色模式的選擇取決于現(xiàn)有設(shè)備和文件本身的狀態(tài),可以遵循循序漸進(jìn)的原則。例如,杭州市檔案館紙質(zhì)檔案數(shù)字化時,一階段主要是黑白掃描,第二階段是紅頭文件和其他有紅色印章的文件的彩色掃描,第三階段是全彩色掃描。毫無疑問,彩色掃描具有更豐富的層次和更高的清晰度,可以更真實地顯示文件的原貌。
分辨率的選擇和設(shè)備有很大關(guān)系,不同地區(qū)不同部門也不一樣。比如中, 杭州市檔案館紙質(zhì)檔案數(shù)字化項目一期將掃描分辨率設(shè)為300dpi,浙江省檔案館的數(shù)字掃描分辨率一般在200 ~ 300 dpi左右,有的高達(dá)600 dpi;但在一些設(shè)備相對落后的部門和地區(qū),掃描分辨率大多是按照國家標(biāo)準(zhǔn)設(shè)定的,甚至很多部門達(dá)不到200dpi。分辨率越高,掃描的圖像會越清晰,但同時必須考慮圖像文件的大小。
(3)掃描技術(shù)的發(fā)展趨勢
顏色模式選擇和分辨率選擇是中掃描技術(shù)重要的方面
彩色模式無疑會向彩色掃描方向發(fā)展,分辨率的選擇需要根據(jù)實際業(yè)務(wù)靈活設(shè)置。一般為了滿足網(wǎng)絡(luò)查詢和利用的需求,黑白圖像可以滿足200dpi的要求,彩色圖像的掃描分辨率可以更低。具體參數(shù)可以根據(jù)掃描清晰度和質(zhì)量因素綜合選擇。對于一些特殊用途,如舉辦展覽,可以采用更高的掃描分辨率。值得注意的是,分辨率既不能太低,也不能太高。例如,福建采用了50dpi的掃描分辨率。雖然容量小,成本低,但無法實現(xiàn)在線查詢和利用,相當(dāng)于做了無用功;另一方面,如果一味追求過高的分辨率,會導(dǎo)致容量過大,也是網(wǎng)絡(luò)資源傳播的負(fù)擔(dān)。
檔案數(shù)字化后,還應(yīng)考慮字符識別(OCR)的應(yīng)用。一般來說,字符識別主要用于全文檢索,而不是真正將掃描的圖像文件還原為文檔。因此,在這方面,不要根據(jù)OCR的識別率來設(shè)置掃描分辨率。《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》建議需要OCR識別的圖像文件分辨率應(yīng)該200dpi,這是一個比較中的標(biāo)準(zhǔn)。
上一條:
書刊檔案數(shù)字化的優(yōu)勢
相關(guān)文章
- 檔案數(shù)字化管理的優(yōu)勢是什么2020年10月29日
- 檔案數(shù)字化管理的創(chuàng)新策略講解2020年11月05日
- 檔案數(shù)字化怎樣保護(hù)檔案的原有模樣2020年11月13日
- 檔案數(shù)字化工作的正確方法講解2020年11月21日
- 房產(chǎn)測繪檔案數(shù)字化管理2020年11月27日