在User talk:Jlhwung/Flow的话题

維基小霸王 (留言贡献)
Jlhwung (留言贡献)

NDL的API限制了10000條結果。在您提到的搜索界面上可以抓取到所有書籍的分類,例如記録、法制……等共950種。這些分類最多的書只有5486種,使用100分頁大小查詢,需要55次。假定所有書都有分類,那麼按分類、分頁抓取,應該可以拿到所有書籍的pid。

維基小霸王 (留言贡献)

并不是每本书都有分类吧

Jlhwung (留言贡献)

確實,有分類的書一共有74873本。假定一本書只有一個分類,那麼有8078本書沒有分類。把這個集合結合通過出版時間分段搜索得到的pid集合,已經可以覆蓋ndl已公佈藏書的90%了。我覺得可以先做着,以後再來補缺。

維基小霸王 (留言贡献)

我就是这么办的,看来没办法获取所有了。另外有下载限制。

回复“ndl”