使用者:維基小霸王/錄入四庫全書計劃

8年前,我有一個夢想:在維基文庫錄入四庫全書的內容,以方便各位用戶,方便維基百科進行引用。那個時候,我一直在網上搜索相關四庫全書所包含書籍,複製到維基文庫。其中有不少內容原本是簡體字,錄入時自動轉換成了傳統漢字,其中出現了不少錯誤。當時我想的是先錄入為好,以後可能會有人進一步更正的。但是從別人的角度來看,這是不負責任的體現。在此,本人對造成的不便表示歉意!

最近,我在網上看到了一個包含四庫全書書籍的文本壓縮包。它又勾起了我初中一二年級時的那個夢想。文本是沒有標點符號的傳統漢字,因此不會有轉換錯字的問題。我想將此數據庫導入維基文庫。在導入前,我會將自己的計劃列在下面。

更新:已經基本完成!

編輯

頁面列表:

                       

質量

編輯

沒有簡繁轉換的錯字,但

  • 在一些字符表中不存在的私有字符顯示不出來,將使用圖片顯示。如果一些字符後來在unicode中包含,可以在模板中直接改成這個字
  • 只有文本,沒有圖片和表格
  • 康熙字典中有不少字符沒有識別,顯示為框。為了方便瀏覽原文圖像以便校正文本,字典類條目會使用page頁面,將文本與圖像一併顯示。暫不導入字典類書籍,以後慢慢通過User:維基小霸王/split-for-proofreading.js導入。


說明

編輯

建立專門的書名 (四庫版)頁面。如果書名已經存在,則在頂部加入Template:See others,如果書名不存在,則建立重定向到書名 (四庫版)

頁面提醒禁止用戶修改文本,只能添加超鏈接到相關典籍或維基百科。如果要自行添加標點,或者錄入他人加標點的版本,則應另外建立頁面。


子頁面

編輯

加入{{header2}}模板。

作者頁面

編輯

自動生成作者頁面。如果已經存在,則附加到作者頁面的歷史記錄中去。

維基百科的參考模板

編輯

在維基百科建立{{Wikisource Citation SKQS}}模板,用戶輸入{{Wikisource Citation SKQS|书名|章节名}}就可以自動生成參考資料,顯示作者信息,鏈接到維基文庫。

在維基文庫每個頁面寫好鏈接此頁面的方法,方便編者進行鏈接。

工作列表

編輯

本地處理工作

編輯
  1. 生成私有區文字的PDF文檔,上傳到維基共享資源
  2. 將私有區文字替換為模板{{SKQSchar|unicode代码}}
  3. 創建目錄頁
    {{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}
    目錄或者內容
    {{X代作品}}表明版權狀態
  4. 創建子頁面
    {{Header2 SKQS|title=|section=|previous=|next=|}}
  5. 轉換為可供維基文庫導入的xml文件
  6. 使用豎版顯示,不添加Header。


工作

編輯
  1. 模仿{{Otheruses}},創建{{see SKQS}}
  2. 模仿{{Header}},創建{{Header SKQS}}
  3. 創建{{SKQSchar}},默認顯示PDF文檔,允許用戶未來將其替換為unicode字符
  4. 創建{{Year Link}},參考w:中國年號列表自動分類為公元,並且鏈接到公元。一些年號有歧義,由於沒有想出自動判斷的辦法,保留建議用戶消歧義。
  5. 申請臨時導入員權限
  6. 導入書籍,每天20~100本
  7. 創建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
  8. 撰寫說明文檔
  1. 建立對話頁,顯示IA搜索鏈接、圖片狀態、表格狀態、字符人工識別狀態、內部連結加入狀態,完成用戶簽名
  2. 更改四庫全書,顯示原文和文本狀態,使用模板

留下來的工作

編輯
  • 圖片、表格可以用IA的掃描版添加
  • 字符圖片人工識別
  • 年代校正
  • 加入內部連結

已知問題

編輯
  • Firefox瀏覽器的錨定問題
  • 雙行注釋目前html不支持。如果以後可以支持,比如日語的Inline Cutting Note,可以在模板中加入支持。
  • 各別頁面所需計算過多而無法正常顯示,如御製康熈字典_(四庫全書本)/卷04。本人推測這是採用了過多含有switch的{{SK char}}模板造成。待到{{SK char}}識別完成,可將此模板替換成相應字符。沒有了過多的{{SK char}},這些頁面就該可以正常顯示。

導入時出現的錯誤

編輯

導入時出現了一些錯誤,以後需要用機器人修正:

  • /斜槓錯誤寫成了\斜槓