維基文庫:光學字元辨識

捷徑
WS:OCR

光學字元辨識Optical Character RecognitionOCR)是將文本圖片轉換為文本的技術。維基媒體提供OCR工具

校對模式

編輯
 
校對模式

維基文庫的目標是收錄原文。為了確保原文的可供查證,最好的辦法是以校對模式,將文本錄入到掃描文件邊上。系統可以自動以文章模式顯示整本/整章圖書,讀者點擊文本左側頁碼,就可以看到原文掃描,便於查證和更正。以《康熙雲南縣志》為例:

大規模OCR計劃

編輯

錄入文本的工作是繁瑣的,電腦可以自動識別。現在,已經有大量圖書掃描上傳至維基共享資源。如果可以大規模對它們OCR,可便於後面維基文庫人的校對。即使無人校對,文本擺在那裡,人們也可以檢索。

現在還未開始大規模OCR,缺乏相應工具,需要人才開發。

對於您希望OCR的文件,請列在Wikisource:OCR/大規模OCR測試文件列表,供測試。

指引

編輯

為確保維基文庫的文本質量和頁面管理,避免創建低質量和冗餘的頁面,使用OCR軟件的用戶應遵循以下指引:

已有數字化文本

編輯

當維基文庫已經收錄了原文對應的數字化文本時,不應大量創建錯誤率高於該數字化文本的頁面。

在使用OCR軟件前,請檢查維基文庫中是否已有相應的數字化文本,以避免重複創建相似內容。

尚未收錄數字化文本的情況

編輯

當維基文庫尚未收錄原文對應數字化文本,但可公開訪問的外部網站已經收錄了該數字化文本時,不應大量創建錯誤率高於外部網站提供的數字化文本的頁面。

在使用OCR軟件前,確認外部網站上是否已有數字化文本,並在創建頁面時參考該文本,以提高準確性。

頁面創建時的注意事項

編輯

在使用OCR軟件創建頁面時,務必確保新建的頁面質量高,避免低質量文本充斥整個維基文庫。

避免大規模創建相似或重複的頁面,尤其是在已有數字化文本的情況下。

特殊情況處理

編輯

對於特殊情況,如書籍中有中縫書名、豎排排版等,使用正則表達式替換等功能可以提高識別準確性。

可選的將半角標點替換為全角標點的功能,以改善OCR對標點的準確性。

預覽和校對

編輯

使用OCR工具時,建議使用預覽功能,隨機或指定識別幾個頁面,以判斷識別率是否合適,再提交識別全部並保存。

進行人工校對,尤其是對於手寫體、低分辨率印刷體的識別結果。

嵌入包含和頁面分割

編輯

可選的自動將對用戶指定的主頁面創建類似於 <pages index="文件名" from="1" to="32" /> 的嵌入包含,後續由用戶按卷分割至子頁面。

協作與社區反饋

編輯

在使用OCR工具時,我們鼓勵用戶與維基文庫社區協作,分享使用經驗和解決問題的方法。

如有特殊需求或功能建議,歡迎在維基文庫社區中提出並進行討論。