维基文库:光学字元辨识/测试
可将扫描文件分为几类,以下是示例页面和已经经过校对的结果,以用于测试(benchmarking)不同的OCR软件。注意,比较时结果应删除后期添加的标点和wikitext。
文件列表
编辑# | 类型 | 图片 | 示例 |
---|---|---|---|
1 | 简体中文(现代印刷,横排) | 1 | 1 |
2 | 简繁混合(现代印刷,横排) | ||
3 | 繁体中文(现代印刷) | 1 | 1 |
4 | 繁体中文,现代印刷,横排 | ||
5 | 繁体中文,现代印刷,竖排,标点在行外 | 1 | 1 |
6 | 繁体中文,现代印刷,竖排,标点在行内 | ||
7 | 繁体中文,古代活字印刷,竖排 | 1 | 1 2 3 4 5 |
8 | 繁体中文,古代雕版印刷,竖排 | 1 | 1 2 3 4 |
9 | 繁体中文,古代工整手写,竖排 | 1 | 1 |
10 | 繁体中文,古代草书,竖排 |
OCR软件测试
编辑2024-01-15
日本国立国会图书馆(国家图书馆级别)开发的OCR软件,已经公布。是为日语训练的,虽然也可以识别中文。识别率不如Google OCR,会将一些字体识别为日本汉字,无法识别行外标点。与Google OCR的比较:5.17.4。
2024-01-15
不支持识别任何标点,因此只能古文使用。古文识别率高于Google OCR。另外有自动加标点功能。分为学术版和工业版,后者针对开源项目有支持。与Google OCR的比较:5.1 7.4 9.1
2024-01-15
维基媒体基金会提供Google OCR api工具。Google OCR对于现代印刷的识别率很高。1.1 9.1
2024-01-15
微信软件自带离线OCR工具。测试发现,简体中文现代文本识别率高,但出现了一些图片中没有的文字:1.1。
微软 Onenote OCR
编辑2024-01-15
识别率不及Google OCR:1.1。