使用者:維基小霸王/錄入四庫全書計劃
8年前,我有一個夢想:在維基文庫錄入四庫全書的內容,以方便各位用戶,方便維基百科進行引用。那個時候,我一直在網上搜索相關四庫全書所包含書籍,複製到維基文庫。其中有不少內容原本是簡體字,錄入時自動轉換成了傳統漢字,其中出現了不少錯誤。當時我想的是先錄入為好,以後可能會有人進一步更正的。但是從別人的角度來看,這是不負責任的體現。在此,本人對造成的不便表示歉意!
最近,我在網上看到了一個包含四庫全書書籍的文本壓縮包。它又勾起了我初中一二年級時的那個夢想。文本是沒有標點符號的傳統漢字,因此不會有轉換錯字的問題。我想將此數據庫導入維基文庫。在導入前,我會將自己的計劃列在下面。
更新:已經基本完成!
編輯頁面列表:
質量
編輯沒有簡繁轉換的錯字,但
- 在一些字符表中不存在的私有字符顯示不出來,將使用圖片顯示。如果一些字符後來在unicode中包含,可以在模板中直接改成這個字
- 只有文本,沒有圖片和表格
- 康熙字典中有不少字符沒有識別,顯示為框。為了方便瀏覽原文圖像以便校正文本,字典類條目會使用page頁面,將文本與圖像一併顯示。暫不導入字典類書籍,以後慢慢通過User:維基小霸王/split-for-proofreading.js導入。
說明
編輯建立專門的書名 (四庫版)頁面。如果書名已經存在,則在頂部加入Template:See others,如果書名不存在,則建立重定向到書名 (四庫版)。
頁面提醒禁止用戶修改文本,只能添加超鏈接到相關典籍或維基百科。如果要自行添加標點,或者錄入他人加標點的版本,則應另外建立頁面。
子頁面
編輯加入{{header2}}模板。
作者頁面
編輯自動生成作者頁面。如果已經存在,則附加到作者頁面的歷史記錄中去。
維基百科的參考模板
編輯在維基百科建立{{Wikisource Citation SKQS}}模板,用戶輸入{{Wikisource Citation SKQS|书名|章节名}}就可以自動生成參考資料,顯示作者信息,鏈接到維基文庫。
在維基文庫每個頁面寫好鏈接此頁面的方法,方便編者進行鏈接。
工作列表
編輯本地處理工作
編輯- 生成私有區文字的PDF文檔,上傳到維基共享資源
- 將私有區文字替換為模板{{SKQSchar|unicode代码}}
- 創建目錄頁
{{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}- 目錄或者內容
{{X代作品}}表明版權狀態
- 創建子頁面
{{Header2 SKQS|title=|section=|previous=|next=|}}
- 轉換為可供維基文庫導入的xml文件
- 使用豎版顯示,不添加Header。
工作
編輯- 模仿{{Otheruses}},創建{{see SKQS}}
模仿{{Header}},創建{{Header SKQS}}- 創建{{SKQSchar}},默認顯示PDF文檔,允許用戶未來將其替換為unicode字符
- 創建{{Year Link}},參考w:中國年號列表自動分類為公元,並且鏈接到公元。一些年號有歧義,由於沒有想出自動判斷的辦法,保留建議用戶消歧義。
- 申請臨時導入員權限
- 導入書籍,每天20~100本
- 創建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
- 撰寫說明文檔
- 建立對話頁,顯示IA搜索鏈接、圖片狀態、表格狀態、字符人工識別狀態、內部連結加入狀態,完成用戶簽名
- 更改四庫全書,顯示原文和文本狀態,使用模板
留下來的工作
編輯- 圖片、表格可以用IA的掃描版添加
- 字符圖片人工識別
- 年代校正
- 加入內部連結
已知問題
編輯- Firefox瀏覽器的錨定問題
- 雙行注釋目前html不支持。如果以後可以支持,比如日語的Inline Cutting Note,可以在模板中加入支持。
- 各別頁面所需計算過多而無法正常顯示,如御製康熈字典_(四庫全書本)/卷04。本人推測這是採用了過多含有switch的{{SK char}}模板造成。待到{{SK char}}識別完成,可將此模板替換成相應字符。沒有了過多的{{SK char}},這些頁面就該可以正常顯示。
導入時出現的錯誤
編輯導入時出現了一些錯誤,以後需要用機器人修正:
- /斜槓錯誤寫成了\斜槓