維基文庫:光學字元辨識
光學字元辨識(Optical Character Recognition,OCR)是將文本圖片轉換為文本的技術。維基媒體提供OCR工具。
校對模式
編輯維基文庫的目標是收錄原文。為了確保原文的可供查證,最好的辦法是以校對模式,將文本錄入到掃描文件邊上。系統可以自動以文章模式顯示整本/整章圖書,讀者點擊文本左側頁碼,就可以看到原文掃描,便於查證和更正。以《康熙雲南縣志》為例:
- 首先,有用戶將原始掃描文件上傳到了維基共享資源:c:File:NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf。
- 然後,有用戶在中文維基文庫創建了這個掃描文件的索引(Index)頁面:Index:NLC403-312001079881-79489_雲南縣誌_民國間(1912-1949)_卷一.pdf。
- 用戶將每一頁的文本都輸入相應的page頁面,如Page:NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf/6。
- 最後,在康熙雲南縣志頁面,輸入<pages index="NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf" from="2" to="9"/>,就能嵌入顯示多個頁面了。
大規模OCR計劃
編輯錄入文本的工作是繁瑣的,電腦可以自動識別。現在,已經有大量圖書掃描上傳至維基共享資源。如果可以大規模對它們OCR,可便於後面維基文庫人的校對。即使無人校對,文本擺在那裡,人們也可以檢索。
現在還未開始大規模OCR,缺乏相應工具,需要人才開發。
對於您希望OCR的文件,請列在Wikisource:OCR/大規模OCR測試文件列表,供測試。
指引
編輯為確保維基文庫的文本質量和頁面管理,避免創建低質量和冗餘的頁面,使用OCR軟件的用戶應遵循以下指引:
已有數字化文本
編輯當維基文庫已經收錄了原文對應的數字化文本時,不應大量創建錯誤率高於該數字化文本的頁面。
在使用OCR軟件前,請檢查維基文庫中是否已有相應的數字化文本,以避免重複創建相似內容。
尚未收錄數字化文本的情況
編輯當維基文庫尚未收錄原文對應數字化文本,但可公開訪問的外部網站已經收錄了該數字化文本時,不應大量創建錯誤率高於外部網站提供的數字化文本的頁面。
在使用OCR軟件前,確認外部網站上是否已有數字化文本,並在創建頁面時參考該文本,以提高準確性。
頁面創建時的注意事項
編輯在使用OCR軟件創建頁面時,務必確保新建的頁面質量高,避免低質量文本充斥整個維基文庫。
避免大規模創建相似或重複的頁面,尤其是在已有數字化文本的情況下。
特殊情況處理
編輯對於特殊情況,如書籍中有中縫書名、豎排排版等,使用正則表達式替換等功能可以提高識別準確性。
可選的將半角標點替換為全角標點的功能,以改善OCR對標點的準確性。
預覽和校對
編輯使用OCR工具時,建議使用預覽功能,隨機或指定識別幾個頁面,以判斷識別率是否合適,再提交識別全部並保存。
進行人工校對,尤其是對於手寫體、低分辨率印刷體的識別結果。
嵌入包含和頁面分割
編輯可選的自動將對用戶指定的主頁面創建類似於 <pages index="文件名" from="1" to="32" />
的嵌入包含,後續由用戶按卷分割至子頁面。
協作與社區反饋
編輯在使用OCR工具時,我們鼓勵用戶與維基文庫社區協作,分享使用經驗和解決問題的方法。
如有特殊需求或功能建議,歡迎在維基文庫社區中提出並進行討論。