User:維基小霸王/录入四库全书计划

8年前,我有一个梦想:在维基文库录入四库全书的内容,以方便各位用户,方便维基百科进行引用。那个时候,我一直在网上搜索相关四库全书所包含书籍,复制到维基文库。其中有不少内容原本是简体字,录入时自动转换成了传统汉字,其中出现了不少错误。当时我想的是先录入为好,以后可能会有人进一步更正的。但是从别人的角度来看,这是不负责任的体现。在此,本人对造成的不便表示歉意!

最近,我在网上看到了一个包含四库全书书籍的文本压缩包。它又勾起了我初中一二年级时的那个梦想。文本是没有标点符号的传统汉字,因此不会有转换错字的问题。我想将此数据库导入维基文库。在导入前,我会将自己的计划列在下面。

更新:已经基本完成! 编辑

页面列表:

                       

质量 编辑

没有简繁转换的错字,但

  • 在一些字符表中不存在的私有字符显示不出来,将使用图片显示。如果一些字符后来在unicode中包含,可以在模板中直接改成这个字
  • 只有文本,沒有圖片和表格
  • 康熙字典中有不少字符没有识别,显示为框。为了方便浏览原文图像以便校正文本,字典类条目会使用page页面,将文本与图像一并显示。暂不导入字典类书籍,以后慢慢通过User:維基小霸王/split-for-proofreading.js导入。


说明 编辑

建立专门的书名 (四库版)页面。如果书名已经存在,则在顶部加入Template:See others,如果书名不存在,则建立重定向到书名 (四库版)

页面提醒禁止用户修改文本,只能添加超链接到相关典籍或维基百科。如果要自行添加标点,或者录入他人加标点的版本,则应另外建立页面。


子页面 编辑

加入{{header2}}模板。

作者页面 编辑

自动生成作者页面。如果已经存在,则附加到作者页面的历史记录中去。

维基百科的参考模板 编辑

在维基百科建立{{Wikisource Citation SKQS}}模板,用户输入{{Wikisource Citation SKQS|书名|章节名}}就可以自动生成参考资料,显示作者信息,链接到维基文库。

在维基文库每个页面写好链接此页面的方法,方便编者进行链接。

工作列表 编辑

本地处理工作 编辑

  1. 生成私有区文字的PDF文档,上传到维基共享资源
  2. 将私有区文字替换为模板{{SKQSchar|unicode代码}}
  3. 创建目录页
    {{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}
    目录或者内容
    {{X代作品}}表明版权状态
  4. 创建子页面
    {{Header2 SKQS|title=|section=|previous=|next=|}}
  5. 转换为可供维基文库导入的xml文件
  6. 使用竖版显示,不添加Header。


工作 编辑

  1. 模仿{{Otheruses}},创建{{see SKQS}}
  2. 模仿{{Header}},创建{{Header SKQS}}
  3. 创建{{SKQSchar}},默认显示PDF文档,允许用户未来将其替换为unicode字符
  4. 创建{{Year Link}},參考w:中国年号列表自動分類為公元,並且鏈接到公元。一些年號有歧義,由於沒有想出自動判斷的辦法,保留建議用戶消歧義。
  5. 申请临时导入员权限
  6. 导入书籍,每天20~100本
  7. 创建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
  8. 撰写说明文档
  1. 建立对话页,显示IA搜索链接、图片状态、表格状态、字符人工识别状态、内部链接加入状态,完成用户签名
  2. 更改四库全书,显示原文和文本状态,使用模板

留下来的工作 编辑

  • 图片、表格可以用IA的扫描版添加
  • 字符图片人工识别
  • 年代校正
  • 加入内部链接

已知问题 编辑

  • Firefox浏览器的锚定问题
  • 双行注释目前html不支持。如果以后可以支持,比如日语的Inline Cutting Note,可以在模板中加入支持。
  • 各別頁面所需計算過多而無法正常顯示,如御製康熈字典_(四庫全書本)/卷04。本人推測這是採用了過多含有switch的{{SK char}}模板造成。待到{{SK char}}識別完成,可將此模板替換成相應字符。沒有了過多的{{SK char}},這些頁面就該可以正常顯示。

導入時出現的錯誤 编辑

導入時出現了一些錯誤,以後需要用機器人修正:

  • /斜杠錯誤寫成了\斜杠