維基文庫:光學字元辨識/測試

< Wikisource:光學字元辨識

可將掃描文件分為幾類，以下是示例頁面和已經經過校對的結果，以用於測試（benchmarking）不同的OCR軟件。注意，比較時結果應刪除後期添加的標點和wikitext。

文件列表

#	類型	圖片	示例
1	簡體中文（現代印刷，橫排）	1	1
2	簡繁混合（現代印刷，橫排）
3	繁體中文（現代印刷）	1	1
4	繁體中文，現代印刷，橫排
5	繁體中文，現代印刷，豎排，標點在行外	1	1
6	繁體中文，現代印刷，豎排，標點在行內
7	繁體中文，古代活字印刷，豎排	1 2 3 4 5	1 2 3 4 5
8	繁體中文，古代雕版印刷，豎排	1 2 3 4	1 2 3 4
9	繁體中文，古代工整手寫，豎排	1	1
10	繁體中文，古代草書，豎排

OCR軟件測試

NDLOCR (ver.2.1)

2024-01-15

日本國立國會圖書館（國家圖書館級別）開發的OCR軟件，已經公布。是為日語訓練的，雖然也可以識別中文。識別率不如Google OCR，會將一些字體識別為日本漢字，無法識別行外標點。與Google OCR的比較：5.1 7.4。

古籍酷

2024-01-15

不支持識別任何標點，因此只能古文使用。古文識別率高於Google OCR。另外有自動加標點功能。分為學術版和工業版，後者針對開源項目有支持。與Google OCR的比較：5.1 7.4 9.1

Google OCR

2024-01-15

維基媒體基金會提供Google OCR api工具。Google OCR對於現代印刷的識別率很高。1.1 9.1

微信OCR

2024-01-15

微信軟件自帶離線OCR工具。測試發現，簡體中文現代文本識別率高，但出現了一些圖片中沒有的文字：1.1。

微軟 Onenote OCR

2024-01-15

識別率不及Google OCR：1.1。

取自「https://zh.wikisource.org/w/index.php?title=Wikisource:光學字元辨識/测试&oldid=2356187」