維基文庫:光學字元辨識/測試
可將掃描文件分為幾類,以下是示例頁面和已經經過校對的結果,以用於測試(benchmarking)不同的OCR軟件。注意,比較時結果應刪除後期添加的標點和wikitext。
文件列表
編輯# | 類型 | 圖片 | 示例 |
---|---|---|---|
1 | 簡體中文(現代印刷,橫排) | 1 | 1 |
2 | 簡繁混合(現代印刷,橫排) | ||
3 | 繁體中文(現代印刷) | 1 | 1 |
4 | 繁體中文,現代印刷,橫排 | ||
5 | 繁體中文,現代印刷,豎排,標點在行外 | 1 | 1 |
6 | 繁體中文,現代印刷,豎排,標點在行內 | ||
7 | 繁體中文,古代活字印刷,豎排 | 1 | 1 2 3 4 5 |
8 | 繁體中文,古代雕版印刷,豎排 | 1 | 1 2 3 4 |
9 | 繁體中文,古代工整手寫,豎排 | 1 | 1 |
10 | 繁體中文,古代草書,豎排 |
OCR軟件測試
編輯2024-01-15
日本國立國會圖書館(國家圖書館級別)開發的OCR軟件,已經公布。是為日語訓練的,雖然也可以識別中文。識別率不如Google OCR,會將一些字體識別為日本漢字,無法識別行外標點。與Google OCR的比較:5.17.4。
2024-01-15
不支持識別任何標點,因此只能古文使用。古文識別率高於Google OCR。另外有自動加標點功能。分為學術版和工業版,後者針對開源項目有支持。與Google OCR的比較:5.1 7.4 9.1
2024-01-15
維基媒體基金會提供Google OCR api工具。Google OCR對於現代印刷的識別率很高。1.1 9.1
2024-01-15
微信軟件自帶離線OCR工具。測試發現,簡體中文現代文本識別率高,但出現了一些圖片中沒有的文字:1.1。
微軟 Onenote OCR
編輯2024-01-15
識別率不及Google OCR:1.1。