Page:吟邊燕語 - Tales from Shakespeare by William Shakespeare

編輯

你好,看到你加進文庫的Page:吟邊燕語 - Tales from Shakespeare by William Shakespeare,有一個疑問︰所上載的書本影印本圖像會不會有版權問題呢?-- Hin 2011年11月20日 (日) 08:43 (UTC)回覆

據我所知書影是1980年左右中國大陸所刊行的版本,我不贊成公開列出書影。但是基於校對等問題,我們自己要保存這本書的djvu稿。--Zhxy 519 2011年11月20日 (日) 15:03 (UTC)回覆
書中只是簡化字、加了標點和頁碼,應該沒有版權吧。--王小朋友 2011年11月27日 (日) 02:49 (UTC)回覆

格式

編輯

拜託你不要只是copy & paste, 你上傳的東西根本沒法看。--Zhxy 519 2012年1月27日 (五) 11:25 (UTC)回覆

自己先做做看

編輯

不要導入目錄,導入一個章節來給我們看看,如果格式不行,你就是白寫。--Zhxy 519討論2012年11月10日 (六) 14:09 (UTC)回覆

RE:

編輯

世上沒有甚麼名叫註釋版的史記,想做就要先拿一個適當的名字來,隨便的名字就是糊弄。何況史記的註解是好幾份資料,你還沒有搞清每份不同的資料各建一個,還是籠統塞到一起?最後不要拿鳥甲來壓人,而且你半途而廢的前科太多,如果你再半途而廢,我就不給你機會。--Zhxy 519討論2012年11月25日 (日) 13:22 (UTC)回覆

沒有適當名字和恆心就不要動。--Zhxy 519討論2012年11月25日 (日) 14:33 (UTC)回覆
現有版本,名為《史記三家註》。弄去吧。--Zhxy 519討論2012年11月26日 (一) 10:02 (UTC)回覆

Notepad

編輯

I first use window notepad or word to save a copy in my drive, complete the editing and save. The next step is to cut and paste to wiki. It is not too bad. Thank you.Seccom88討論2013年1月22日 (二) 14:33 (UTC)回覆

錄入康熙字典的初衷

編輯

其實孔夫子說的對,名不正則言不順,言不順則事難成。試想在錄入古文的時候遇到相當生辟的漢字不會打,是很彆扭的事情。尤其看這篇文章的人是位處女座的呢。

而這部康熙字典卻幫了大忙,所以我才要錄入。至於內容中考證、箋、傳、按、注等內容,我感覺不像是成書後就有的東西,可能是以後再版時,那些文官大學士們後加的內容。在我看來這些不過是修正了原文中的錯誤,或者擴展閱讀,反而不如原文中內容重要,所以不應該和原文內容放在一起,尤其是考證的內容。多數都是僅按原文改什麼什麼的或者增減什麼什麼的。

給那些所引用的書籍加鏈接是很麻煩,但我考慮到兩點,一點是閱讀者疲勞的問題,因爲長期看單一的黑白兩色容易疲勞。加了鏈接,也就加了紅藍兩色,權當點綴吧。第二是爲了方便查閱,如果引的內容存在就查閱,如果不存在就該錄入,也好豐富這個文庫的內容。因爲現在的這裏文章多半還是孤立的,彼此連上也沒什麼不好Thering29 2014年10月5日 (日) 22:29 (UTC)Thering29

字典說到底隻是工具,圖片應該不如文字更方便查閱吧。而且你上傳圖片,肯定會有版權的審核。如此在效率上也低。而且我也很少看到影印作品Thering29 2014年10月6日 (一) 02:26 (UTC)Thering29
@Thering29:圖片確實查閱不方便,因此文字不僅錄入在page裡,還在頁面內加入<pages index="Kangxi Dictionary - Huiyao Edition - volume 02.djvu" from=6 to=11 fromsection="二" tosection="二"/>像現在一樣在一頁裡顯示內容。但是這就大大方便校對了。
版權在中國大陸和台灣有50年的保護期,50年之前出版的內容是沒有版權的。圖片是掃描自古書,完全沒有版權問題。上傳的書籍是djvu或者pdf格式,一個文件裡會包括一或多卷的圖片,因此效率很高。--維基小霸王討論2014年10月6日 (一) 02:42 (UTC)回覆
你提的這個事情我確實不懂,但我剛才看了一下,根本不支持編輯。所以我真看不出來到底哪裏方便了。請儘快恢復吧,否則我只能認爲你在搞破壞了

請去英文維基編輯吧,我想這裡並不適合你

Category:頁面的節點數超出限制

編輯

也許你需要把某些東西換成lua。這方面我不擅長,你需要請其他人來幫忙。 --達師 - 334 - 554 2016年10月4日 (二) 16:00 (UTC)回覆

謝謝提醒,我來看看。--維基小霸王討論2016年10月4日 (二) 16:32 (UTC)回覆
謝謝你的幫助!--維基小霸王討論2016年10月5日 (三) 00:52 (UTC)回覆

關於四庫全書的編輯

編輯

四庫全書有太多上傳版本,例如「影像版」、「原本文字版」、「標點版」等等,建議另開頁面,並註明所用版本。。--User:Veritashero

同意。可創立標點為「_(四庫全書標點本)」或是什麼。--維基小霸王討論2016年10月15日 (六) 13:40 (UTC)回覆

欽定日下舊聞考_(四庫全書本)

編輯

缺卷一百五十五 --達師 - 334 - 554 2016年10月29日 (六) 10:47 (UTC)回覆

內容在卷一百五十四里。過些時候一併修復。--維基小霸王討論2016年10月29日 (六) 12:46 (UTC)回覆

四庫全書中以前創建的無標點頁面

編輯

您在Wikisource:刪除投票#2016年10月提議刪除「四庫全書中以前創建的無標點頁面」,並說要提供頁面列表。至今已過去數月,無人反對。如果您方便的話,希望能夠提供這些頁面的列表,以便結案。 --達師 - 345 - 574 2017年2月9日 (四) 07:20 (UTC)回覆

欽定古今圖書集成

編輯

1.您的來源中部分文字圖片(如2990號『炁』字炁)早已存在Unicode編碼,而且該字位於基本多文種平面內,不會出現缺字現象,因此建議將這些文字改回非圖片表示。您的文字圖片沒有設置alt屬性,當圖片尚未載入時,會使人產生誤會。 2.本人發現欽定古今圖書集成/博物彙編/神異典/第294卷竟沒有來自欽定古今圖書集成/博物彙編/神異典的鏈入頁面,可能是您編纂目録時存在缺漏。 3.您的文本來源中每行之間存在換行,這樣會在最終正文之中行間多出一個空格,使文本不便使用。我建議刪除行間換行,但是保留段間雙換行。 --Midleading討論2017年2月19日 (日) 01:58 (UTC)回覆

@Midleading:我的文本來源中沒有使用文本表示一些文字,這樣的文字數量高達三萬,是本人無法自行識別的。只能以後拜託各位貢獻者逐個識別、替換(沒準可以開發一個機器人)。2.剛才注意到這個問題,我會修正的。3.刪除換行是英文維基文庫的規定,但是本人認為,如果有換行可以方便校對,所以反對刪除換行。至於空格的問題,我想等到以後向mediawiki報告,增加刪除空格的功能。--維基小霸王討論2017年2月19日 (日) 02:26 (UTC)回覆
@維基小霸王:對問題1,我已經建立一個頁面來收集已經識別出的字。這個頁面格式很單一,便於機器人使用。其中,加感嘆號的字不在基本多文種平面內,可以不修改,其它的則建議修改。等您有空了,可以根據該頁面去除文字圖片。--Midleading討論2017年2月19日 (日) 03:17 (UTC)回覆

您好,您導入《欽定古今圖書集成》的速度較慢,請問您是否需要協助?另外,您是否有在維基共享資源上傳的機器人,可以上傳大量文件?—Midleading討論2018年2月13日 (二) 11:53 (UTC)回覆

回覆:這種情況其實很常見,我在導入《四部叢刊》時就有人提出了問題。後來爲了解決這個問題我設計了一個程式,從維基共享資源獲取書的第一頁、中部一頁與最後一頁,並與文字一同顯示,這樣就會發現闕頁了。不知您是否也要考慮編寫這一功能?—Midleading討論2018年2月18日 (日) 05:34 (UTC)回覆

現在新建的頁面(如Page:Gujin Tushu Jicheng, Volume 113 (1700-1725).djvu/80‎Page:Gujin Tushu Jicheng, Volume 123 (1700-1725).djvu/83)又是錯誤的了。--Midleading討論2018年2月19日 (一) 09:34 (UTC)回覆

刪除此頁即可。晚些時候再改。--維基小霸王討論2018年2月19日 (一) 09:49 (UTC)回覆

現在新建的頁面全是錯誤的。--Midleading討論2019年8月2日 (五) 01:34 (UTC)回覆

@Midleading:一般來說是掃描版的錯誤,我看看。--維基小霸王討論2019年8月2日 (五) 01:36 (UTC)回覆
確實是掃描版的錯誤,我找找有沒有別的掃描版重新上傳。--維基小霸王討論2019年8月2日 (五) 01:39 (UTC)回覆
@Midleading:已上傳正確的版本。以後再有錯誤請告知,我用這裡的文件替換就行了。--維基小霸王討論2019年8月2日 (五) 02:09 (UTC)回覆

機器人申請

編輯

雖然我不參與維基文庫,但是看到您的申請之後認為可以直接拒絕您的申請,因為您未能說清楚您準備修改什麼內容以及如何修改,也沒有給出詳細的操作計劃。如果再次申請,請給機器人換一個一眼能看出是機器人的用戶名,例如「小霸王Bot」或「小霸王機器人」等。--逆襲的天邪鬼討論2017年3月18日 (六) 11:06 (UTC)回覆

御定全唐詩 (四庫全書本)/卷858

編輯

剛剛準備上傳《七夕 (呂巖)》的時候發現您錄入的《御定全唐詩 (四庫全書本)/卷858》裡面的詩序和作品未分開,導致我差點認為這本書錄入有誤。這裡提出一個建議,雖然詩的序已經與詩的內容分開(單獨列入了一列),但是還是請問是否可以將詩序用<small>的標籤縮小?或者用「{{*|」使其在顏色上區分開來?--Horizon Sunset討論2017年11月11日 (六) 13:59 (UTC)回覆

豎排滾動

編輯

目前在firefox下豎排字變成上下滾動(即overflow-y:scroll)了。第一頁自右向左排滿之後,第二頁接在第一頁下方而非左方。不知道這樣描述是否清楚。

及,欽定日下舊聞考_(四庫全書本)中出現了「︵字位過密 無法顯示︶」之字樣,請予修復。 --達師 - 345 - 574 2017年11月30日 (四) 15:38 (UTC)回覆

請記得在留言時署名

編輯

  您好,當您在所有討論頁或開頭是「Wikipedia:」的頁面中參與討論時,請記得在您的留言結尾加入四個波浪號標記(~~~~,可使用 按鈕)來簽名,使系統自動將您的用戶名或IP地址以及發表評論的時間加入到頁面中。這些信息在參與討論時對其他人將很有用。可能需要簽名的頁面例如 Talk:欽定古今圖書集成。謝謝您的參與。 --Cewbot討論2018年2月19日 (一) 08:52 (UTC)回覆

未來將全文導入《文淵閣四庫全書》

編輯

本人現在正在維基共享資源上傳《文淵閣四庫全書》,現在已上傳12049 MB,但是因為文件太多,學校又按上網流量收費,不久後將停止上傳。一段時間後,可能會開始導入《文淵閣四庫全書》。請閣下討論文淵閣四庫全書全文的導入方法。目前有幾點需要研究:

  • Page頁面帶來大量格式問題,例如空格問題、豎排文本中如何顯示Page頁碼。
  • Page頁面導入後,維基文庫編者對主命名空間的編輯將丟失。
  • Page、Index頁面與主命名空間的四庫全書本頁面的對應關係無機器可讀說明文件,需要人工整理。
  • 全覽頁面的節點數更加緊張。
  • 來源沒有SKAnchor標記,維基文庫編者的編輯丟失後不知如何添加SKAnchor。

——Midleading討論2018年3月1日 (四) 03:33 (UTC)回覆

我在維基共享資源有機器人賬號,我可以用家用電腦上傳。
  • Page頁面帶來大量格式問題,例如空格問題、豎排文本中如何顯示Page頁碼。
    空格問題、豎排頁碼與導入無關,而是維基文庫系統的問題。建議導入即可,導入後再去向上反映,或者本地解決即可。
  • Page頁面導入後,維基文庫編者對主命名空間的編輯將丟失。
    之前的四庫全書是我在一年前導入維基文庫的,用戶編輯十分有限。閣下是否方便寫程序,檢查有哪些頁面被編輯過,檢查之後人工合併至page頁面。即日起,便可禁止編輯相關頁面,請在MediaWiki:Titleblacklist加入相關的正則表達式,使用方法見[1]
  • Page、Index頁面與主命名空間的四庫全書本頁面的對應關係無機器可讀說明文件,需要人工整理。
    我使用原文對文本進行分割的。由於四庫全書格式比較規範,程序應該可以對應多數內容。這一步可以導入文本後再進行。
    如果閣下的程序有機讀的分頁標題,建議發上來,我想嘗試對應一下。
  • 全覽頁面的節點數更加緊張。
    我不知道如何處理,可提請社群是否刪除。
  • 來源沒有SKAnchor標記,維基文庫編者的編輯丟失後不知如何添加SKAnchor。
    以前我是把所有字數小於一定的行都加上SKAnchor,閣下可以用{{Visible anchor}}代替。維基文庫編者的編輯數量還不大,可以人工補上。
  • 其它問題:
    @Kanashimi:編寫的年號紀年的小工具比{{YL}}準確。建議使用該校工具的數據進行類似的年代標註。如果認為這樣的程序過於複雜暫無法寫出,建議暫停紀年標註,待以後有機器人創建再行標註。

--維基小霸王討論2018年3月1日 (四) 04:18 (UTC)回覆

目前我會首先為《四部叢刊》新建主命名空間頁。——Midleading討論2018年3月1日 (四) 03:41 (UTC)回覆

建議先建幾個示例頁面,供社群討論修改樣式,之後再廣泛創建。--維基小霸王討論2018年3月1日 (四) 04:19 (UTC)回覆
由於先前xml導入的不少頁面未被計算進頁面數,而機器人創建的條目則會。估計所有工作完成後維基文庫頁面數可翻1~2倍。--維基小霸王討論2018年3月1日 (四) 04:24 (UTC)回覆

導入計劃仍無確定實施日期,目前不宜保護所有四庫全書本頁面,等到全部導入後準備以Page方式替換現有頁面時再確定下一步方案。——Midleading討論2018年3月1日 (四) 13:00 (UTC)回覆

至少那個故宮的圖片是有版權的,我會移除前3頁、最後一頁之後再上傳。--維基小霸王討論2018年3月1日 (四) 15:29 (UTC)回覆
我同意這樣做,現在這樣的做法僅僅是因為沒有辦法將這麼多文件的前3頁都去掉。維基媒體的服務現在不穩定,剛剛的上傳都因為<?xml version="1.0"?><api servedby="mw1234"><error code="internal_api_error_UploadChunkFileException" info="[WpgTzQpAMEUAAFnHQ7EAAABE] Exception caught: Error storing file in '/tmp/WFqLvD': backend-fail-internal; local-swift-codfw" /></api>出錯了,還有11部沒有上傳,明日繼續。請上傳前檢查維基共享資源是否已經存在該文件。目前維基文庫有很多更重要的事需要機器人做,例如清理Category:包含Unicode私有區字符的條目、為《四部叢刊》建立主頁面、清理{{PD-old}}等,至少需要幾個月後才會開始導入。——Midleading討論2018年3月1日 (四) 15:39 (UTC)回覆
建議暫停上傳。我認為可以按這裡的數據分割並且命名,再上傳。
好的,不過我現在光是列出機器人工作隊列都已經忙不過來了,我沒有軟件和帶寬來分割這麼多文件,如果你可以幫助一下更好。文件上傳暫時停止。感謝你的支持。--Midleading討論2018年3月1日 (四) 15:58 (UTC)回覆
對,維基文庫還有很多別的工作。


最近我比較忙,先記錄一下怎麼做:

https://pulsearch.princeton.edu/catalog?f1=in_series&format=atom&page=(1到35)&per_page=100&q1=景印文淵閣四庫全書+%3B&search_field=advanced&sort=cataloged_tdt+desc%2C+pub_date_start_sort+desc%2C+title_sort+asc

找到編號,在

https://pulsearch.princeton.edu/catalog/3909751.ris

下載

英文名:TI - Zhou yi ji jie : [17 juan] / (Tang) Li Dingzuo zhuan.

中文名、作者:T2 - 周易集解 : [17卷] / (唐) 李鼎祚撰.

頁數N2 - p. 603-892 ; 28 cm.

冊數T3 - 景印文淵閣四庫全書 ; 第7冊

之後再用頁數和冊數提取djuv文件,同時建立說明文件。--維基小霸王討論2018年3月1日 (四) 15:59 (UTC)回覆

關於Year link模板的使用:Kanashimi開發的小工具需要訪問 https://kanashimi.github.io ,這並不符合隱私方針,所以不會被默認啟用。這樣,Year link模版仍有其價值。—Midleading討論2018年3月3日 (六) 05:02 (UTC)回覆

@Midleading:我是想說,此小工具中使用的標記年代的技術較為先進,可根據前文推斷朝代,而且可轉換年月日而不僅僅是年。因此,可用Kanashimi的技術建立機器人,繼續通過Year link模板進行標記。Year link模板可同時修改升級為Date link模板。--維基小霸王討論2018年3月3日 (六) 05:07 (UTC)回覆
@Midleading[2]包含一些書目的頁碼信息,我從程序中解壓到的DDE文件夾可能包含數據,但不知道如何打開文件。請問如何打開?--維基小霸王討論2018年3月4日 (日) 04:41 (UTC)回覆
我最近要參加研究生招生考試,沒有時間完成這種複雜操作。建議閣下有時間時先將《古今圖書集成》完成,維基文庫還亟需錄入新文章,還有很多散落在個人網站的沒有收入大型叢書的文章需要人工錄入。到時候我會將有關資料保存到維基文庫的。—Midleading討論2018年3月4日 (日) 05:28 (UTC)回覆
其實我也挺忙的,由於相同的原因。😁--維基小霸王討論2018年3月4日 (日) 05:45 (UTC)回覆
應該建議維基技術團隊開發新的校對方法,目前這種將文字檔和影印檔綁在一起的校對方式,需要切割文字檔來搭配影印檔,過程太過繁瑣。有標題頁及影印檔的書籍,在標題頁新增數個[校對]按鈕,做些設定連接二者,即可開始校對,不需要切割文字檔來搭配影印檔,是比較簡單的方法。--Lonicear討論2018年3月19日 (一) 16:43 (UTC)回覆
現行的方法需要分頁編輯,確實有些繁瑣。在同一頁就能校對可能更好。不過,只要有顯示圖像的「校對」按鈕,就需要頁碼和圖像的對應信息,因此本人認為應該保留page頁面,同時可以開發在同一個頁面就能編輯多個page頁面的方法。--維基小霸王討論2018年3月19日 (一) 17:04 (UTC)回覆

使用Lua重寫SKchar後,節點數超出限制的問題得到解決,可以保留全覽頁面。--Midleading討論2018年4月10日 (二) 16:07 (UTC)回覆

胡適文集

編輯

您好!謝謝合作。我手頭也有胡適文集12卷的PDF,我是按照這個文本來OCR和校對的。如果根據您的胡適文存,可能內容以及版式等會有所出入。 Hamham討論2018年3月2日 (五) 00:16 (UTC)回覆

胡適文集是1998年出版的,有版權.還是1930年代出版的<胡適文存>更符合維基文庫的版權規定.--維基小霸王討論2018年3月2日 (五) 03:23 (UTC)回覆
其實胡適這類非編輯類作品的版權保護期是根據作者去世年份來起算的,跟文集的出版時間是無關的。因為這類編輯並沒有改變作品本身的表現形式。當然,Zhxy兄提到的美國著作權法下,胡適作品仍然沒有進入公共領域,這是個大麻煩。無論是30年代出版的文存還是98年出版的文集,目前在美國法看來都不能自由上傳。所以我暫時會停下來,可能得轉移到加拿大網站去。謝謝!--Hamham討論2018年3月2日 (五) 07:56 (UTC)回覆
經過您這一解釋,我理解「消極容忍」的真正含義了。哈哈哈,那我就繼續放心地幫助他人了。多謝多謝!關於胡適文集的PDF如何上傳,我再想想辦法。--Hamham討論2018年3月2日 (五) 10:46 (UTC)回覆
您好。感謝您的建議。但說實話,胡適文存的PDF掃描版質量比較差,文字辨認難度有點大。而且我本身上傳的文字稿已經是根據《胡適文集》(北大版)做了相當細緻的校對的(光是《胡適文集》第12集就耗費了我大半年的時間來校對),所以恕我暫時無法將這些文字上傳到文存的對應頁面去了。不過今後如果有力氣,我可能會將胡適文集全文的PDF上傳到網上,這個應該也是不侵犯版權的(起碼屬於消極容忍,哈哈)。--Hamham討論2018年3月5日 (一) 02:44 (UTC)回覆
排版是有版權的,維基共享資源應該不能消極容忍。--維基小霸王討論2018年3月5日 (一) 02:55 (UTC)回覆

繁體版《胡適文集》

編輯

您好,我注意到已經有一個機器人幫我移動了條目。非常感謝這位機器人的工作。下一步我設立新條目時會注意直接改為繁體。但文章正文我還是用簡體錄入/校對,這個轉換工作只能交由繁簡轉換工具去完成了。有點小任性,求諒解。--Hamham討論2018年3月7日 (三) 08:05 (UTC)回覆

回覆

編輯

我的觀點也是目前不要拆分。個人認為人工拆分大量djvu文件是一件費力不討好的事,既使有手動拆分方法,也不如將這時間用於做其他更有意義的事,等日後有工具可以從工作列表自動拆分大量djvu文件時再拆分會更好。維基媒體目前允許公有領域的文件中含有少量非自由內容,不過仍難以評價法律風險,特別是國內有將公有領域資源過度版權化的傾向,很多國家強制性標準、古籍、司法文獻都被用版權保護措施保護了,或者商業出版了。——Midleading討論2018年3月9日 (五) 03:19 (UTC)回覆

導入《四部叢刊》目錄的任務已經結束,現在任何人都可以編輯這些目錄。更改SK list的任務沒有導入《四部叢刊》正文重要,何況由於影印本錯誤百出,導入正文都需要一卷一捲地人工核對。 Midleading討論2018年4月4日 (三) 05:12 (UTC)回覆

欽定日下舊聞考 (四庫全書本)/卷090

編輯
增涼水河通南海子乃所以宣洩海子所出之水大興縣志臣等謹按良鄉縣南亦有涼水河水經謂之樂水與都城外之涼水河異派此河源出右安門外西南鳳泉東流經萬泉寺分為二支一南經草橋一北經廣恩寺俱東注永勝橋復合為一東南流至小紅門之西入

這裡的「臣」原書是否另起一行? --達師 - 370 - 608 2018年9月10日 (一) 14:18 (UTC)回覆

是。影印卷九十 頁四。 --Liouxiao討論2018年9月10日 (一) 14:26 (UTC)回覆

中華人民共和國條約數據庫

編輯

[3]。這個東西處理得不錯,有幾千個條約,而且保持了當時的繁簡用字(以及過渡期的混用)。如有可能的話希望能夠導入。 --達師 - 370 - 608 2019年1月3日 (四) 03:34 (UTC)回覆

請問如何訪問文本版?--維基小霸王討論2019年7月12日 (五) 16:03 (UTC)回覆

邀請參與討論

編輯

寫字間上有關於匯入者權限改為跨維基匯入者的討論,這影響了您目前的權限,因此邀請前來發表意見。--Jusjih討論2019年10月10日 (四) 02:44 (UTC)回覆

Wikisource:管理員/維基小霸王

編輯

遺憾。因爲支持力道不足,所以才建議以不通過結案。請問仍要異議,像是延長投票嗎?--Jusjih討論2020年5月3日 (日) 23:06 (UTC)回覆

看來只能結案了。為維基文庫貢獻了這麼多,卻不能選上管理員,真失望。 維基小霸王討論2020年5月4日 (一) 00:06 (UTC)回覆

別失望。貢獻多不自動能選上管理員,在英文維基百科更常見。請問Zhxy 519質疑的「早年間大量上傳的機器轉換文獻至今爛尾」是何文?再加強仍有機會的。--Jusjih討論2020年5月5日 (二) 01:34 (UTC)回覆

如何在Template:SKchar/字符表中查找相應的的字符圖片?

編輯

此頁面擁有四千多字,請問是否可以迅速查找需要的字符?--Horizon Sunset討論2020年5月18日 (一) 01:44 (UTC)回覆

明白了,謝謝。本人在校對文本來源的時候發現了一些異體字,想將這些字符圖片插入文本來源,不知是否合適?--Horizon Sunset討論2020年5月18日 (一) 02:24 (UTC)回覆

頁面:Sibu Congkan0074-徐鍇-説文解字繫傳-8-5.djvu/139中有一字為上龜下火,請您看一下。--Horizon Sunset討論2020年5月18日 (一) 02:42 (UTC)回覆

維基數據

編輯

您好,我有個小工具能查詢出維基百科頁面對應的維基數據號碼,這個工具其實很簡單,就是先查一遍繁體,查不到再機器轉換成簡體再查一遍。這個小工具目前僅以源代碼方式存在,用於構建維基數據機器人。您如果需要的話我們再討論討論具體怎樣編譯成獨立版,不過也有個更好的方式,就是先把需要的維基百科數據項先全加上zh-hans/zh-hant標籤,這樣不用專用工具也能查出來了。--Midleading討論2020年7月18日 (六) 12:37 (UTC)回覆

但是這樣沒法查重定向,如谷歌重定向到google。用谷歌就查不着google的維基數據編號。--維基小霸王討論2020年7月18日 (六) 13:03 (UTC)回覆
用wbSearchEntity或者SPARQL都能查出別名,別名的數據一般是從重定向導入的,能查出來。問題不在於查不出來,而是查出一大堆不相干的東西,例如維基文庫中的一首詩或者維基百科一個同名的明朝人物,還要加篩選條件。--Midleading討論2020年7月18日 (六) 14:54 (UTC)回覆

另外我打算給每一本書不管有沒有維基文庫頁面都新建一個維基數據項,可以暫時先鏈接到維基共享資源分類,這樣日後(馬上)可以把作者等信息加進去,不知道您有沒有興趣?--Midleading討論2020年7月18日 (六) 15:07 (UTC)回覆

我正有此意。我想從二十四史開始,除了作者,還將每卷提到的人物都導入wikidata。之後可以讓wp、ws相互顯示鏈接,用戶以後直接在wikidata添加別的鏈接,兩站也能自動更新。
不過在此之前,我還是想先徹底解決標點問題。台灣明確說古文的後加標點不受著作權保護,大陸也曾經這麼說過。但最穩妥的辦法還是用人工智能標點,之後由志願者修正。目前《古今圖書集成》的標點已經徹底使用人工智能標點。雖然在引號方面有較多錯誤,但在斷句方面很棒。我希望人工智能標點作者幫忙標點其他著作,但是他沒有收到回應。我決定自己使用google的深度學習工具BERT標點,但苦於沒有古代漢語的預訓練模型(需要使用大量無標點文本進行預訓練,再進行訓練)。這需要大量的計算資源,我正在嘗試解決。--維基小霸王討論2020年7月18日 (六) 15:26 (UTC)回覆

您找不到閩南語維基文庫麼?

編輯

我發現閣下在寫字間的一個質疑「[mnp]閩北、[nan]閩南、[cdo]閩東?」感到非常詫異,閩南語維基文庫已經建站多年了吧。--Liuxinyu970226討論2020年7月24日 (五) 23:32 (UTC)回覆

我送的意思是說連福建一地的方言代碼就有三種至多,難道一地就要建立三種方言站嗎?我對於中文分家的觀點已經多次陳述,此處不再重複。--維基小霸王討論2020年7月25日 (六) 00:30 (UTC)回覆

錯誤

編輯

陜西通志

編輯

陜西通志 (四庫全書本),應該是「」而不是「」。本頁面及所有子頁面皆有此錯誤。--- Peacearth討論2020年12月1日 (二) 17:14 (UTC)回覆

[4]更像是「陜」。--維基小霸王討論2020年12月2日 (三) 05:22 (UTC)回覆

古籍 繁體 豎排文字OCR識別求助

編輯

你好,NB的 維基人,請教一下,對於豎排的繁體文字,有什麼好的OCR工具可以推薦嗎?多謝 --Bangbang.S討論2021年3月15日 (一) 01:44 (UTC)回覆

https://ocr.gj.cool/ 維基小霸王留言2023年6月16日 (五) 07:16 (UTC)回覆

全唐文頁面嵌入消歧義頁

編輯

全唐文/卷0137為例,該頁面嵌入了議沙門不應拜俗狀,為消歧義頁。另見Category:消歧義,可以看到多個全唐文或全唐詩頁面。 曾晉哲討論2021年4月9日 (五) 01:04 (UTC)回覆

我了解到這個問題了。--維基小霸王討論2021年4月9日 (五) 01:52 (UTC)回覆

已發送電郵

編輯

已發送電郵 Midleading留言2022年5月18日 (三) 04:15 (UTC)回覆

@Midleading已回復。--維基小霸王留言2022年5月18日 (三) 06:34 (UTC)回覆

圖書館備份項目的韓國古文圖書館

編輯

Blahhmosh留言2022年7月1日 (五) 21:04 (UTC)回覆

謝謝! 維基小霸王留言2022年7月2日 (六) 02:51 (UTC)回覆

韓國獨立紀念館所藏書籍:https://search.i815.or.kr/main.do Blahhmosh留言2022年7月4日 (一) 23:51 (UTC)回覆
記錄遺產之古圖書:https://book.ugyo.net/ Blahhmosh留言2022年7月7日 (四) 21:44 (UTC)回覆
高麗大學海外韓國學資料中心:http://kostma.korea.ac.kr/ Blahhmosh留言2022年7月8日 (五) 00:09 (UTC)回覆
韓國的知識內容:https://www.krpia.co.kr/ Blahhmosh留言2022年7月10日 (日) 22:25 (UTC)回覆
韓國佛教全書:https://kabc.dongguk.edu/index Blahhmosh留言2023年7月31日 (一) 01:05 (UTC)回覆
國史編纂委員會圖書館:https://library.history.go.kr/ Blahhmosh留言2023年8月30日 (三) 19:23 (UTC)回覆
謝謝。希望有一天可以通通轉載過來。 維基小霸王留言2023年8月31日 (四) 12:11 (UTC)回覆
http://db.hiks.or.kr Blahhmosh留言2024年3月1日 (五) 16:56 (UTC)回覆
http://gasa.go.kr Blahhmosh留言2024年3月31日 (日) 16:51 (UTC)回覆

欽定古今圖書集成含有大量錯誤Annotation使用

編輯

搜尋「Annotation intitle:欽定古今圖書集成」可以發現有很多頁面的Annotation超過了一行,導致模板缺少結束標籤。 Midleading留言2023年6月15日 (四) 14:54 (UTC)回覆

應該不是換行,而是開始和結束位於前後兩個page頁面導致的。 維基小霸王留言2023年6月16日 (五) 07:15 (UTC)回覆

Re:界面編輯請求

編輯

搬了英文版的小工具過來,現在頁碼已經可以正常顯示了。但是小工具似乎並不完全起作用,因此沒有設置默認啟用。請暫時在Special:Preferences中設置啟用。 達師 - 370 - 608 2023年6月18日 (日) 04:01 (UTC)回覆

《俠義佳人》的幾個版權疑問 和 先以簡體字錄入

編輯

我看到您提到的掃描原件初集中集頁面下面有許可協議,說是屬於公有領域。不知道上傳文本是否也能按這個協議「法人的作品首次發表50年後或自創作之日起50年未發表,進入公有領域」?我不清楚算不算法人。

另外,我依據的是百花洲文藝出版社1993年出版《中國近代小說大系》中收錄的標點符號、分段、校點等,有沒有這書的版權問題?

能用簡體字寫入嗎?以我有的百花洲文藝出版社1993年出版《中國近代小說大系》紙質書,我使用掃描的方式得到簡體版本。直接轉換成繁體字我不曉得會不會存在偏誤,因為不精通繁體字。以我的能力,只能首先用簡體字文本,如果有想轉換繁體字及對照掃描原件的人,後續再完善,是否可行? 0epvurf留言2023年8月12日 (六) 01:37 (UTC)回覆

您好 您可以先用簡體字錄入 原文的標點符號都是句號 您可以先使用記事本把逗號替換成句號 這樣跟原文就差不多了 文本如果有後人寫的注釋 錄入前請刪除 維基小霸王留言2023年8月12日 (六) 02:42 (UTC)回覆
謝謝回復 0epvurf留言2023年8月12日 (六) 04:31 (UTC)回覆

已向你發送郵件

編輯

已向你發送郵件,請注意查收。 Midleading留言2024年1月4日 (四) 15:44 (UTC)回覆

已向你發送郵件,請注意查收。 Midleading留言2024年1月6日 (六) 04:29 (UTC)回覆
已向你發送郵件,請注意查收。 Midleading留言2024年1月6日 (六) 09:34 (UTC)回覆

Wikimedia OCR現在沒有"We can not access the URL currently"錯誤了

編輯

我剛才看了一下,這個問題確實解決了,現在可以重新討論是否需要大量OCR。 Midleading留言2024年1月14日 (日) 03:04 (UTC)回覆

好 不過請注意我提了https://phabricator.wikimedia.org/T352503 GOOGLE不能識別豎排線外標點 --維基小霸王留言2024年1月14日 (日) 04:00 (UTC)回覆

Google的產品問題只有Google員工可以解決,在這裡提沒有用。需要假定這個問題有直到更新的OCR出現前永遠不會被解決的可能。 Midleading留言2024年1月14日 (日) 04:20 (UTC)回覆
有道理 維基小霸王留言2024年1月14日 (日) 06:04 (UTC)回覆
請稍等,我去提。 維基小霸王留言2024年1月14日 (日) 06:11 (UTC)回覆

現在Google OCR的質量比起之前可謂是大有進步,許多古籍也可以用了。 Midleading留言2024年11月13日 (三) 11:19 (UTC)回覆

很好,我想可以寫一個OCR機器人,供用戶大規模OCR。用戶只需人工核對,OCR對於某一古籍質量尚可(一些手抄書籍、一些豎排版式的圖書的OCR質量就太差了,依然不可以。注意,豎排文本行外標點的問題還是沒有解決),即可提交運行。還可以提供一些自動的小工具,如將識別出來的半角符號全部轉換為全角。還可以提供正則表達式替換功能,由用戶在自己的用戶頁自定義(如自動加載Special:MyPage/proofreading_tools.js中的替換工具)。 維基小霸王留言2024年12月4日 (三) 13:39 (UTC)回覆

新春快樂

編輯

祝現實安好。

如果別人打你,在保證自己安全的情況下還手。這是最基本的道理

新春快樂! Assifbus留言2024年1月23日 (二) 03:54 (UTC)回覆

關於首行縮進

編輯

作爲一個18年左右註冊的相對新的用戶,感謝閣下對維基文庫十幾年如一日的貢獻。關於閣下轉寫的《魯迅全集》,提出兩點建議:

1. 可以不遵循原文首行縮進。原文並無段間距,但現代網頁有段間距,段間距比首行縮進已更易讀,無需同時使用「段間距」和「首行縮進」兩種分段方式。只使用一般的在源碼中空行分段(會渲染成段間距)即可。當然,已錄入完成者可保持現狀。

2. 無需像在維基百科那樣使用 -{}- 包裹字符。維基百科隨意使用簡繁來寫源碼,檢視時再全部向簡或繁轉換。而本站的用字原則是遵循原文而非隨意使用,因此選擇「不轉換」即可查看原碼中的用字,選擇「簡」或「繁」則是在原文的基礎上進一步轉換。TianSalt留言2024年11月12日 (二) 12:27 (UTC)回覆

您可以按此編輯。 維基小霸王留言2024年11月13日 (三) 11:14 (UTC)回覆