维基文库:光學字元辨識
光学字符识别(Optical Character Recognition,OCR)是将文本图片转换为文本的技術。维基媒体提供OCR工具。
校对模式
编辑维基文库的目标是收录原文。为了确保原文的可供查证,最好的办法是以校对模式,将文本录入到扫描文件边上。系统可以自动以文章模式显示整本/整章图书,读者点击文本左侧页码,就可以看到原文扫描,便于查证和更正。以《康熙雲南縣志》为例:
- 首先,有用户将原始扫描文件上传到了维基共享资源:c:File:NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf。
- 然后,有用户在中文维基文库创建了这个扫描文件的索引(Index)页面:Index:NLC403-312001079881-79489_雲南縣誌_民國間(1912-1949)_卷一.pdf。
- 用户将每一页的文本都输入相应的page页面,如Page:NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf/6。
- 最后,在康熙雲南縣志页面,输入<pages index="NLC403-312001079881-79489 雲南縣誌 民國間(1912-1949) 卷一.pdf" from="2" to="9"/>,就能嵌入显示多个页面了。
大规模OCR计划
编辑录入文本的工作是繁琐的,电脑可以自动识别。现在,已经有大量图书扫描上传至维基共享资源。如果可以大规模对它们OCR,可便于后面维基文库人的校对。即使无人校对,文本摆在那里,人们也可以检索。
现在还未开始大规模OCR,缺乏相应工具,需要人才开发。
对于您希望OCR的文件,请列在Wikisource:OCR/大规模OCR测试文件列表,供测试。
指引
编辑为确保维基文库的文本质量和页面管理,避免创建低质量和冗余的页面,使用OCR软件的用户应遵循以下指引:
已有数字化文本
编辑当维基文库已经收录了原文对应的数字化文本时,不应大量创建错误率高于该数字化文本的页面。
在使用OCR软件前,请检查维基文库中是否已有相应的数字化文本,以避免重复创建相似内容。
尚未收录数字化文本的情况
编辑当维基文库尚未收录原文对应数字化文本,但可公开访问的外部网站已经收录了该数字化文本时,不应大量创建错误率高于外部网站提供的数字化文本的页面。
在使用OCR软件前,确认外部网站上是否已有数字化文本,并在创建页面时参考该文本,以提高准确性。
页面创建时的注意事项
编辑在使用OCR软件创建页面时,务必确保新建的页面质量高,避免低质量文本充斥整个维基文库。
避免大规模创建相似或重复的页面,尤其是在已有数字化文本的情况下。
特殊情况处理
编辑对于特殊情况,如书籍中有中缝书名、竖排排版等,使用正则表达式替换等功能可以提高识别准确性。
可选的将半角标点替换为全角标点的功能,以改善OCR对标点的准确性。
预览和校对
编辑使用OCR工具时,建议使用预览功能,随机或指定识别几个页面,以判断识别率是否合适,再提交识别全部并保存。
进行人工校对,尤其是对于手写体、低分辨率印刷体的识别结果。
嵌入包含和页面分割
编辑可选的自动将对用户指定的主页面创建类似于 <pages index="文件名" from="1" to="32" />
的嵌入包含,后续由用户按卷分割至子页面。
协作与社区反馈
编辑在使用OCR工具时,我們鼓励用户与维基文库社区协作,分享使用经验和解决问题的方法。
如有特殊需求或功能建议,欢迎在维基文库社区中提出并进行讨论。