用户:维基小霸王/录入四库全书计划
8年前,我有一个梦想:在维基文库录入四库全书的内容,以方便各位用户,方便维基百科进行引用。那个时候,我一直在网上搜索相关四库全书所包含书籍,复制到维基文库。其中有不少内容原本是简体字,录入时自动转换成了传统汉字,其中出现了不少错误。当时我想的是先录入为好,以后可能会有人进一步更正的。但是从别人的角度来看,这是不负责任的体现。在此,本人对造成的不便表示歉意!
最近,我在网上看到了一个包含四库全书书籍的文本压缩包。它又勾起了我初中一二年级时的那个梦想。文本是没有标点符号的传统汉字,因此不会有转换错字的问题。我想将此数据库导入维基文库。在导入前,我会将自己的计划列在下面。
更新:已经基本完成!
编辑页面列表:
质量
编辑没有简繁转换的错字,但
- 在一些字符表中不存在的私有字符显示不出来,将使用图片显示。如果一些字符后来在unicode中包含,可以在模板中直接改成这个字
- 只有文本,没有图片和表格
- 康熙字典中有不少字符没有识别,显示为框。为了方便浏览原文图像以便校正文本,字典类条目会使用page页面,将文本与图像一并显示。暂不导入字典类书籍,以后慢慢通过User:维基小霸王/split-for-proofreading.js导入。
说明
编辑建立专门的书名 (四库版)页面。如果书名已经存在,则在顶部加入Template:See others,如果书名不存在,则建立重定向到书名 (四库版)。
页面提醒禁止用户修改文本,只能添加超链接到相关典籍或维基百科。如果要自行添加标点,或者录入他人加标点的版本,则应另外建立页面。
子页面
编辑加入{{header2}}模板。
作者页面
编辑自动生成作者页面。如果已经存在,则附加到作者页面的历史记录中去。
维基百科的参考模板
编辑在维基百科建立{{Wikisource Citation SKQS}}模板,用户输入{{Wikisource Citation SKQS|书名|章节名}}就可以自动生成参考资料,显示作者信息,链接到维基文库。
在维基文库每个页面写好链接此页面的方法,方便编者进行链接。
工作列表
编辑本地处理工作
编辑- 生成私有区文字的PDF文档,上传到维基共享资源
- 将私有区文字替换为模板{{SKQSchar|unicode代码}}
- 创建目录页
{{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}- 目录或者内容
{{X代作品}}表明版权状态
- 创建子页面
{{Header2 SKQS|title=|section=|previous=|next=|}}
- 转换为可供维基文库导入的xml文件
- 使用竖版显示,不添加Header。
工作
编辑- 模仿{{Otheruses}},创建{{see SKQS}}
模仿{{Header}},创建{{Header SKQS}}- 创建{{SKQSchar}},默认显示PDF文档,允许用户未来将其替换为unicode字符
- 创建{{Year Link}},参考w:中国年号列表自动分类为公元,并且链接到公元。一些年号有歧义,由于没有想出自动判断的办法,保留建议用户消歧义。
- 申请临时导入员权限
- 导入书籍,每天20~100本
- 创建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
- 撰写说明文档
- 建立对话页,显示IA搜索链接、图片状态、表格状态、字符人工识别状态、内部链接加入状态,完成用户签名
- 更改四库全书,显示原文和文本状态,使用模板
留下来的工作
编辑- 图片、表格可以用IA的扫描版添加
- 字符图片人工识别
- 年代校正
- 加入内部链接
已知问题
编辑- Firefox浏览器的锚定问题
- 双行注释目前html不支持。如果以后可以支持,比如日语的Inline Cutting Note,可以在模板中加入支持。
- 各别页面所需计算过多而无法正常显示,如御制康熙字典_(四库全书本)/卷04。本人推测这是采用了过多含有switch的{{SK char}}模板造成。待到{{SK char}}识别完成,可将此模板替换成相应字符。没有了过多的{{SK char}},这些页面就该可以正常显示。
导入时出现的错误
编辑导入时出现了一些错误,以后需要用机器人修正:
- /斜杠错误写成了\斜杠