維基文庫:光學字元辨識/測試

可將掃描文件分為幾類,以下是示例頁面和已經經過校對的結果,以用於測試(benchmarking)不同的OCR軟件。注意,比較時結果應刪除後期添加的標點和wikitext。

文件列表

編輯
# 類型 圖片 示例
1 簡體中文(現代印刷,橫排) 1 1
2 簡繁混合(現代印刷,橫排)
3 繁體中文(現代印刷) 1 1
4 繁體中文,現代印刷,橫排
5 繁體中文,現代印刷,豎排,標點在行外 1 1
6 繁體中文,現代印刷,豎排,標點在行內
7 繁體中文,古代活字印刷,豎排 1

2 3 4 5

1 2 3 4 5
8 繁體中文,古代雕版印刷,豎排 1

2 3 4

1 2 3 4
9 繁體中文,古代工整手寫,豎排 1 1
10 繁體中文,古代草書,豎排

OCR軟件測試

編輯

2024-01-15

日本國立國會圖書館(國家圖書館級別)開發的OCR軟件,已經公布。是為日語訓練的,雖然也可以識別中文。識別率不如Google OCR,會將一些字體識別為日本漢字,無法識別行外標點。與Google OCR的比較:5.17.4

2024-01-15

不支持識別任何標點,因此只能古文使用。古文識別率高於Google OCR。另外有自動加標點功能。分為學術版和工業版,後者針對開源項目有支持。與Google OCR的比較:5.1 7.4 9.1

2024-01-15

維基媒體基金會提供Google OCR api工具。Google OCR對於現代印刷的識別率很高。1.1 9.1

2024-01-15

微信軟件自帶離線OCR工具。測試發現,簡體中文現代文本識別率高,但出現了一些圖片中沒有的文字:1.1

微軟 Onenote OCR

編輯

2024-01-15

識別率不及Google OCR:1.1