关于此版块

維基小霸王 (留言贡献)
Jlhwung (留言贡献)

NDL的API限制了10000條結果。在您提到的搜索界面上可以抓取到所有書籍的分類,例如記録、法制……等共950種。這些分類最多的書只有5486種,使用100分頁大小查詢,需要55次。假定所有書都有分類,那麼按分類、分頁抓取,應該可以拿到所有書籍的pid。

維基小霸王 (留言贡献)

并不是每本书都有分类吧

Jlhwung (留言贡献)

確實,有分類的書一共有74873本。假定一本書只有一個分類,那麼有8078本書沒有分類。把這個集合結合通過出版時間分段搜索得到的pid集合,已經可以覆蓋ndl已公佈藏書的90%了。我覺得可以先做着,以後再來補缺。

維基小霸王 (留言贡献)

我就是这么办的,看来没办法获取所有了。另外有下载限制。

回复“ndl”

《光海君日記·重抄本》與《光海君日記·正抄本》

2
Blahhmosh (留言贡献)

我該如何對付這兩個版本?我該分別錄入,還是將兩個版本混合錄入與同一網頁?

Jlhwung (留言贡献)

選一本做錄入底本,另一本可以出校記或者另外錄入。兩個版本混合的話,那你就製造了一個新的Blahhmosh編輯本了。

请您今后替换中日韩统一表意文字扩展区时注意使用CJK-New-Char模板

3
由Yinyue200做出的摘要

感谢回应

Yinyue200 (留言贡献)

非常感谢!

Yinyue200 (留言贡献)

另外现在Unicode 15还没发布,是不是着急了一点

Jlhwung (留言贡献)
Blahhmosh (留言贡献)

《朝鮮王朝實錄》《中宗實錄》64卷,23年,11月24日 裏面就出現了這一個字。我實在無法破譯。您認爲這是什麽字?

Blahhmosh (留言贡献)

上下段落:

“往返一月,雖甚匆遽,而禮儀周旋,情文曲盡,令人懷感。不【這個字】瀕行,過承垂念,以爲再見無由,徒勞夢想,蓋信然也”

回复“這是什麽字?”

《昭和天皇實錄》與其版權問題。

1
Blahhmosh (留言贡献)

近日,日本頒佈《昭和天皇實錄》,但是頒佈時間爲2014年。請問,既然頒佈者為政府機構,把他移到本站是否屬於版權侵害?

回复“《昭和天皇實錄》與其版權問題。”

如何快速發多張圖片到Wikimedia上?

1
Blahhmosh (留言贡献)

如何快速發多張圖片到Wikimedia上?我有一大堆圖片需要發,但是好像Wikimedia只允許你一次發一張圖片,而不是一次發多張圖片。這該怎麽辦?

回复“如何快速發多張圖片到Wikimedia上?”
Blahhmosh (留言贡献)

请问,维基文库能够容得下多少字?

用演算,我猜我将要制造的页面要容下1,962,665。请问,一个页面能够容得下这么多字吗?

Jlhwung (留言贡献)
回复“维基文库页面容量为多少?”
Blahhmosh (留言贡献)

我在讀《朝鮮王朝實錄》時遇到了這個字。這個字已經磨破地很了,不容易識別出來。連韓國人他們都不知道這是什麽字。但是我認爲這個字是“層”。你認爲呢?

出處:http://sillok.history.go.kr/id/wda_12807019_010, 查找"〈■畢〉"這一連串的字。這個字就是我所説的磨破字。按"원본 보기"。這個字的出處在第四頁,最底下。

在維基文庫裏面為:朝鮮王朝實錄/世宗實錄/二十八年, 查找"曲階高方東西墻底,其間"這一連串的字

Mysterious Character appearing in Sejong Sillok
Jlhwung (留言贡献)

可能是「層」,但如果存疑,註明闕字即可,除非有別本可以補正。

回复“這個字是什麽字?”
银色雪莉 (留言贡献)

您好,此前我上载了一个新见字形⿰丠尼(是“屔”的异体)到魏安的讨论页,他在编辑摘要中的回复意见是“simply transcribe as 屔”就好了。我对这个意见有点不解(当然可能是我对Unicode编码不了解的缘故)但语言界限恐怕不能清楚表达,故此想请教您:由于以“丠”和“丘”为构件的汉字(至少以段玉裁《说文解字注》中“从丠”或“丠声”为例),包括邱、虚都有另行编码的“𨛆”和“𧆳”,那么为什么不考虑把⿰丠尼也另行编码呢?(我猜测也许是因为证据不足的原因,包括目前我也仅见章氏在《新方言/釋詞第一》中有这样的写法,不知是否这样的原因?)尚请指教,感谢!

Jlhwung (留言贡献)

對的。如果能提交更多的證據,例如學者論文討論「」和「屔」;或是其他人的著作中也使用了「」。編碼的理據會更充分一些。說文雖然提到了「从丠从泥省」,但其字頭不能作爲漢字編碼證據,因爲不是使用楷書的形式(見IRG PnP 2.1.1.b)。

包含某構件的漢字已經編碼不代表新字仍然會獲得獨立碼位。IRG近年對異體字漸趨嚴格,例如:推出了UCV爲異體字統合提供依據。注意:統合並不意味着放棄在數字化層面區分某兩個字形,依然可以通過IVD的形式讓這些字形可以被表達,只是IVD似乎沒有得到很多支持,至少中國韓國臺灣都沒有註冊過IVD.

另:可以直接在魏安討論頁中回覆中文,他當然能讀懂。

银色雪莉 (留言贡献)

感谢。我此前也以为自己有忽略,所以查阅过UCV表,却又没见“丠”和“丘”的统合,所以才来相问。

照阁下所言,其实如果IVD得到广泛支持和使用,那么对于像是用非纸化形式重排古籍来说应该是要更加友好或者说工作能更加精细的——尤其是像这类考究文字语言的小学类著作,不然的话,还不如影印本呢233

PS:我也惊讶于我怎么下意识必须用英语了,大概是刻板印象?也可能是一瞬间对于使用外语的疲倦感哈哈,不过还是非常感谢阁下提醒。

回复“请教字形编码问题”

《朝鮮王朝實錄》的生僻字問題

4
Blahhmosh (留言贡献)

您好。這次我要完成《朝鮮王朝實錄》的搬運。但是我需要幫助:《朝鮮王朝實錄》裏面有一些連很罕見到Unicode都沒有的生字詞。我需要您幫我查看《太宗》四年6月11日開始,至《太宗》11年10月28日爲止,其間有沒有我所説的生僻字。生僻字的意思是:如果您在google chrome裏面,到所説的日期,比如“http://sillok.history.go.kr/id/kca_10406010_001”

,按CTRL+U,然後用CTRL+F,輸入"newchar",發現CTRL+U裏面"newchar"有出現過,那麽這個頁面有生僻字。請您到我的討論裏面,發給我這些鏈接。謝謝您。辛苦您了。~~~~

Jlhwung (留言贡献)

抱歉我精力有限,恐怕沒有時間逐個查閱朝鮮實錄缺字。

建議您使用程序抓取該數據庫html正文(而非簡單複製粘貼,這樣會漏掉圖片字),然後使用正則表達式匹配img.newchar這種HTML元素,所有這些元素的 src 都形如/images/newchar_images/KC09/KC09912_16.GIF,其中KC09912是生僻字的編號,你可以到https://zi.tools/api/ma/ma/kc.json下載字統網維護的從KC編號到IDS/Unicode漢字的映射,使用映射信息把img.newchar批量替換成{{?|IDS}}或者已編碼漢字。

Blahhmosh (留言贡献)

網絡抓取應該以多快的速度抓取?我以15秒一抓的速度進行,但是還是被禁了。

Jlhwung (留言贡献)

可以嘗試減少併發量,增加人類使用瀏覽器時會發出的HTTP頭。如果還是會被禁,那就慢慢導入:文本質量比導入速度重要。

回复“《朝鮮王朝實錄》的生僻字問題”