维基文库:光學字元辨識

捷径
WS:OCR

光学字符识别（Optical Character Recognition，OCR）是将文本图片转换为文本的技術。维基媒体提供OCR工具。

校对模式

维基文库的目标是收录原文。为了确保原文的可供查证，最好的办法是以校对模式，将文本录入到扫描文件边上。系统可以自动以文章模式显示整本/整章图书，读者点击文本左侧页码，就可以看到原文扫描，便于查证和更正。以《康熙雲南縣志》为例：

首先，有用户将原始扫描文件上传到了维基共享资源：c:File:NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf。
然后，有用户在中文维基文库创建了这个扫描文件的索引（Index）页面：Index:NLC403-312001079881-79489_雲南縣誌_民國間(1912-1949)_卷一.pdf。
用户将每一页的文本都输入相应的page页面，如Page:NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf/6。
最后，在康熙雲南縣志页面，输入<pages index="NLC403-312001079881-79489 雲南縣誌民國間(1912-1949) 卷一.pdf" from="2" to="9"/>，就能嵌入显示多个页面了。

录入文本的工作是繁琐的，电脑可以自动识别。现在，已经有大量图书扫描上传至维基共享资源。如果可以大规模对它们OCR，可便于后面维基文库人的校对。即使无人校对，文本摆在那里，人们也可以检索。

现在还未开始大规模OCR，缺乏相应工具，需要人才开发。

对于您希望OCR的文件，请列在Wikisource:OCR/大规模OCR测试文件列表，供测试。

为确保维基文库的文本质量和页面管理，避免创建低质量和冗余的页面，使用OCR软件的用户应遵循以下指引：

当维基文库已经收录了原文对应的数字化文本时，不应大量创建错误率高于该数字化文本的页面。

在使用OCR软件前，请检查维基文库中是否已有相应的数字化文本，以避免重复创建相似内容。

当维基文库尚未收录原文对应数字化文本，但可公开访问的外部网站已经收录了该数字化文本时，不应大量创建错误率高于外部网站提供的数字化文本的页面。

在使用OCR软件前，确认外部网站上是否已有数字化文本，并在创建页面时参考该文本，以提高准确性。

在使用OCR软件创建页面时，务必确保新建的页面质量高，避免低质量文本充斥整个维基文库。

避免大规模创建相似或重复的页面，尤其是在已有数字化文本的情况下。

对于特殊情况，如书籍中有中缝书名、竖排排版等，使用正则表达式替换等功能可以提高识别准确性。

可选的将半角标点替换为全角标点的功能，以改善OCR对标点的准确性。

使用OCR工具时，建议使用预览功能，随机或指定识别几个页面，以判断识别率是否合适，再提交识别全部并保存。

进行人工校对，尤其是对于手写体、低分辨率印刷体的识别结果。

可选的自动将对用户指定的主页面创建类似于 <pages index="文件名" from="1" to="32" /> 的嵌入包含，后续由用户按卷分割至子页面。

在使用OCR工具时，我們鼓励用户与维基文库社区协作，分享使用经验和解决问题的方法。

如有特殊需求或功能建议，欢迎在维基文库社区中提出并进行讨论。