維基文庫:光學字元辨識

捷徑
WS:OCR

光學字元辨識（Optical Character Recognition，OCR）是將文本圖片轉換為文本的技術。維基媒體提供OCR工具。

校對模式

維基文庫的目標是收錄原文。為了確保原文的可供查證，最好的辦法是以校對模式，將文本錄入到掃描文件邊上。系統可以自動以文章模式顯示整本/整章圖書，讀者點擊文本左側頁碼，就可以看到原文掃描，便於查證和更正。以《康熙雲南縣志》為例：

首先，有用戶將原始掃描文件上傳到了維基共享資源：c:File:NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf。
然後，有用戶在中文維基文庫創建了這個掃描文件的索引（Index）頁面：Index:NLC403-312001079881-79489_雲南縣誌_民國間(1912-1949)_卷一.pdf。
用戶將每一頁的文本都輸入相應的page頁面，如Page:NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf/6。
最後，在康熙雲南縣志頁面，輸入<pages index="NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf" from="2" to="9"/>，就能嵌入顯示多個頁面了。

錄入文本的工作是繁瑣的，電腦可以自動識別。現在，已經有大量圖書掃描上傳至維基共享資源。如果可以大規模對它們OCR，可便於後面維基文庫人的校對。即使無人校對，文本擺在那裡，人們也可以檢索。

現在還未開始大規模OCR，缺乏相應工具，需要人才開發。

對於您希望OCR的文件，請列在Wikisource:OCR/大規模OCR測試文件列表，供測試。

為確保維基文庫的文本質量和頁面管理，避免創建低質量和冗餘的頁面，使用OCR軟件的用戶應遵循以下指引：

當維基文庫已經收錄了原文對應的數字化文本時，不應大量創建錯誤率高於該數字化文本的頁面。

在使用OCR軟件前，請檢查維基文庫中是否已有相應的數字化文本，以避免重複創建相似內容。

當維基文庫尚未收錄原文對應數字化文本，但可公開訪問的外部網站已經收錄了該數字化文本時，不應大量創建錯誤率高於外部網站提供的數字化文本的頁面。

在使用OCR軟件前，確認外部網站上是否已有數字化文本，並在創建頁面時參考該文本，以提高準確性。

在使用OCR軟件創建頁面時，務必確保新建的頁面質量高，避免低質量文本充斥整個維基文庫。

避免大規模創建相似或重複的頁面，尤其是在已有數字化文本的情況下。

對於特殊情況，如書籍中有中縫書名、豎排排版等，使用正則表達式替換等功能可以提高識別準確性。

可選的將半角標點替換為全角標點的功能，以改善OCR對標點的準確性。

使用OCR工具時，建議使用預覽功能，隨機或指定識別幾個頁面，以判斷識別率是否合適，再提交識別全部並保存。

進行人工校對，尤其是對於手寫體、低分辨率印刷體的識別結果。

可選的自動將對用戶指定的主頁面創建類似於 <pages index="文件名" from="1" to="32" /> 的嵌入包含，後續由用戶按卷分割至子頁面。

在使用OCR工具時，我們鼓勵用戶與維基文庫社區協作，分享使用經驗和解決問題的方法。

如有特殊需求或功能建議，歡迎在維基文庫社區中提出並進行討論。