维基文库:光学字元辨识/测试

可将扫描文件分为几类,以下是示例页面和已经经过校对的结果,以用于测试(benchmarking)不同的OCR软件。注意,比较时结果应删除后期添加的标点和wikitext。

文件列表

编辑
# 类型 图片 示例
1 简体中文(现代印刷,横排) 1 1
2 简繁混合(现代印刷,横排)
3 繁体中文(现代印刷) 1 1
4 繁体中文,现代印刷,横排
5 繁体中文,现代印刷,竖排,标点在行外 1 1
6 繁体中文,现代印刷,竖排,标点在行内
7 繁体中文,古代活字印刷,竖排 1

2 3 4 5

1 2 3 4 5
8 繁体中文,古代雕版印刷,竖排 1

2 3 4

1 2 3 4
9 繁体中文,古代工整手写,竖排 1 1
10 繁体中文,古代草书,竖排

OCR软件测试

编辑

2024-01-15

日本国立国会图书馆(国家图书馆级别)开发的OCR软件,已经公布。是为日语训练的,虽然也可以识别中文。识别率不如Google OCR,会将一些字体识别为日本汉字,无法识别行外标点。与Google OCR的比较:5.17.4

2024-01-15

不支持识别任何标点,因此只能古文使用。古文识别率高于Google OCR。另外有自动加标点功能。分为学术版和工业版,后者针对开源项目有支持。与Google OCR的比较:5.1 7.4 9.1

2024-01-15

维基媒体基金会提供Google OCR api工具。Google OCR对于现代印刷的识别率很高。1.1 9.1

2024-01-15

微信软件自带离线OCR工具。测试发现,简体中文现代文本识别率高,但出现了一些图片中没有的文字:1.1

微软 Onenote OCR

编辑

2024-01-15

识别率不及Google OCR:1.1