用户:维基小霸王/录入四库全书计划

8年前,我有一个梦想:在维基文库录入四库全书的内容,以方便各位用户,方便维基百科进行引用。那个时候,我一直在网上搜索相关四库全书所包含书籍,复制到维基文库。其中有不少内容原本是简体字,录入时自动转换成了传统汉字,其中出现了不少错误。当时我想的是先录入为好,以后可能会有人进一步更正的。但是从别人的角度来看,这是不负责任的体现。在此,本人对造成的不便表示歉意!

最近,我在网上看到了一个包含四库全书书籍的文本压缩包。它又勾起了我初中一二年级时的那个梦想。文本是没有标点符号的传统汉字,因此不会有转换错字的问题。我想将此数据库导入维基文库。在导入前,我会将自己的计划列在下面。

更新:已经基本完成! 编辑

页面列表:

                       

质量 编辑

没有简繁转换的错字,但

  • 在一些字符表中不存在的私有字符显示不出来,将使用图片显示。如果一些字符后来在unicode中包含,可以在模板中直接改成这个字
  • 只有文本,没有图片和表格
  • 康熙字典中有不少字符没有识别,显示为框。为了方便浏览原文图像以便校正文本,字典类条目会使用page页面,将文本与图像一并显示。暂不导入字典类书籍,以后慢慢通过User:维基小霸王/split-for-proofreading.js导入。


说明 编辑

建立专门的书名 (四库版)页面。如果书名已经存在,则在顶部加入Template:See others,如果书名不存在,则建立重定向到书名 (四库版)

页面提醒禁止用户修改文本,只能添加超链接到相关典籍或维基百科。如果要自行添加标点,或者录入他人加标点的版本,则应另外建立页面。


子页面 编辑

加入{{header2}}模板。

作者页面 编辑

自动生成作者页面。如果已经存在,则附加到作者页面的历史记录中去。

维基百科的参考模板 编辑

在维基百科建立{{Wikisource Citation SKQS}}模板,用户输入{{Wikisource Citation SKQS|书名|章节名}}就可以自动生成参考资料,显示作者信息,链接到维基文库。

在维基文库每个页面写好链接此页面的方法,方便编者进行链接。

工作列表 编辑

本地处理工作 编辑

  1. 生成私有区文字的PDF文档,上传到维基共享资源
  2. 将私有区文字替换为模板{{SKQSchar|unicode代码}}
  3. 创建目录页
    {{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}
    目录或者内容
    {{X代作品}}表明版权状态
  4. 创建子页面
    {{Header2 SKQS|title=|section=|previous=|next=|}}
  5. 转换为可供维基文库导入的xml文件
  6. 使用竖版显示,不添加Header。


工作 编辑

  1. 模仿{{Otheruses}},创建{{see SKQS}}
  2. 模仿{{Header}},创建{{Header SKQS}}
  3. 创建{{SKQSchar}},默认显示PDF文档,允许用户未来将其替换为unicode字符
  4. 创建{{Year Link}},参考w:中国年号列表自动分类为公元,并且链接到公元。一些年号有歧义,由于没有想出自动判断的办法,保留建议用户消歧义。
  5. 申请临时导入员权限
  6. 导入书籍,每天20~100本
  7. 创建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
  8. 撰写说明文档
  1. 建立对话页,显示IA搜索链接、图片状态、表格状态、字符人工识别状态、内部链接加入状态,完成用户签名
  2. 更改四库全书,显示原文和文本状态,使用模板

留下来的工作 编辑

  • 图片、表格可以用IA的扫描版添加
  • 字符图片人工识别
  • 年代校正
  • 加入内部链接

已知问题 编辑

  • Firefox浏览器的锚定问题
  • 双行注释目前html不支持。如果以后可以支持,比如日语的Inline Cutting Note,可以在模板中加入支持。
  • 各别页面所需计算过多而无法正常显示,如御制康熙字典_(四库全书本)/卷04。本人推测这是采用了过多含有switch的{{SK char}}模板造成。待到{{SK char}}识别完成,可将此模板替换成相应字符。没有了过多的{{SK char}},这些页面就该可以正常显示。

导入时出现的错误 编辑

导入时出现了一些错误,以后需要用机器人修正:

  • /斜杠错误写成了\斜杠