Page:吟边燕语 - Tales from Shakespeare by William Shakespeare 编辑

你好,看到你加进文库的Page:吟边燕语 - Tales from Shakespeare by William Shakespeare,有一个疑问︰所上载的书本影印本图像会不会有版权问题呢?-- Hin 2011年11月20日 (日) 08:43 (UTC)回复

据我所知书影是1980年左右中国大陆所刊行的版本,我不赞成公开列出书影。但是基于校对等问题,我们自己要保存这本书的djvu稿。--Zhxy 519 2011年11月20日 (日) 15:03 (UTC)回复
书中只是简化字、加了标点和页码,应该没有版权吧。--王小朋友 2011年11月27日 (日) 02:49 (UTC)回复

格式 编辑

拜托你不要只是copy & paste, 你上传的东西根本没法看。--Zhxy 519 2012年1月27日 (五) 11:25 (UTC)回复

自己先做做看 编辑

不要导入目录,导入一个章节来给我们看看,如果格式不行,你就是白写。--Zhxy 519讨论2012年11月10日 (六) 14:09 (UTC)回复

RE: 编辑

世上没有甚么名叫注释版的史记,想做就要先拿一个适当的名字来,随便的名字就是糊弄。何况史记的注解是好几份资料,你还没有搞清每份不同的资料各建一个,还是笼统塞到一起?最后不要拿鸟甲来压人,而且你半途而废的前科太多,如果你再半途而废,我就不给你机会。--Zhxy 519讨论2012年11月25日 (日) 13:22 (UTC)回复

没有适当名字和恒心就不要动。--Zhxy 519讨论2012年11月25日 (日) 14:33 (UTC)回复
现有版本,名为《史记三家注》。弄去吧。--Zhxy 519讨论2012年11月26日 (一) 10:02 (UTC)回复

Notepad 编辑

I first use window notepad or word to save a copy in my drive, complete the editing and save. The next step is to cut and paste to wiki. It is not too bad. Thank you.Seccom88讨论2013年1月22日 (二) 14:33 (UTC)回复

录入康熙字典的初衷 编辑

其实孔夫子说的对,名不正则言不顺,言不顺则事难成。试想在录入古文的时候遇到相当生辟的汉字不会打,是很别扭的事情。尤其看这篇文章的人是位处女座的呢。

而这部康熙字典却帮了大忙,所以我才要录入。至于内容中考证、笺、传、按、注等内容,我感觉不像是成书后就有的东西,可能是以后再版时,那些文官大学士们后加的内容。在我看来这些不过是修正了原文中的错误,或者扩展阅读,反而不如原文中内容重要,所以不应该和原文内容放在一起,尤其是考证的内容。多数都是仅按原文改什么什么的或者增减什么什么的。

给那些所引用的书籍加链接是很麻烦,但我考虑到两点,一点是阅读者疲劳的问题,因为长期看单一的黑白两色容易疲劳。加了链接,也就加了红蓝两色,权当点缀吧。第二是为了方便查阅,如果引的内容存在就查阅,如果不存在就该录入,也好丰富这个文库的内容。因为现在的这里文章多半还是孤立的,彼此连上也没什么不好Thering29 2014年10月5日 (日) 22:29 (UTC)Thering29

字典说到底只是工具,图片应该不如文字更方便查阅吧。而且你上传图片,肯定会有版权的审核。如此在效率上也低。而且我也很少看到影印作品Thering29 2014年10月6日 (一) 02:26 (UTC)Thering29
@Thering29:图片确实查阅不方便,因此文字不仅录入在page里,还在页面内加入<pages index="Kangxi Dictionary - Huiyao Edition - volume 02.djvu" from=6 to=11 fromsection="二" tosection="二"/>像现在一样在一页里显示内容。但是这就大大方便校对了。
版权在中国大陆和台湾有50年的保护期,50年之前出版的内容是没有版权的。图片是扫描自古书,完全没有版权问题。上传的书籍是djvu或者pdf格式,一个文件里会包括一或多卷的图片,因此效率很高。--维基小霸王讨论2014年10月6日 (一) 02:42 (UTC)回复
你提的这个事情我确实不懂,但我刚才看了一下,根本不支持编辑。所以我真看不出来到底哪里方便了。请尽快恢复吧,否则我只能认为你在搞破坏了

请去英文维基编辑吧,我想这里并不适合你

Category:页面的节点数超出限制 编辑

也许你需要把某些东西换成lua。这方面我不擅长,你需要请其他人来帮忙。 --达师 - 334 - 554 2016年10月4日 (二) 16:00 (UTC)回复

谢谢提醒,我来看看。--维基小霸王讨论2016年10月4日 (二) 16:32 (UTC)回复
谢谢你的帮助!--维基小霸王讨论2016年10月5日 (三) 00:52 (UTC)回复

关于四库全书的编辑 编辑

四库全书有太多上传版本,例如“影像版”、“原本文字版”、“标点版”等等,建议另开页面,并注明所用版本。。--User:Veritashero

同意。可创立标点为“_(四库全书标点本)”或是什么。--维基小霸王讨论2016年10月15日 (六) 13:40 (UTC)回复

钦定日下旧闻考_(四库全书本) 编辑

缺卷一百五十五 --达师 - 334 - 554 2016年10月29日 (六) 10:47 (UTC)回复

内容在卷一百五十四里。过些时候一并修复。--维基小霸王讨论2016年10月29日 (六) 12:46 (UTC)回复

四库全书中以前创建的无标点页面 编辑

您在Wikisource:删除投票#2016年10月提议删除“四库全书中以前创建的无标点页面”,并说要提供页面列表。至今已过去数月,无人反对。如果您方便的话,希望能够提供这些页面的列表,以便结案。 --达师 - 345 - 574 2017年2月9日 (四) 07:20 (UTC)回复

钦定古今图书集成 编辑

1.您的来源中部分文字图片(如2990号‘炁’字炁)早已存在Unicode编码,而且该字位于基本多文种平面内,不会出现缺字现象,因此建议将这些文字改回非图片表示。您的文字图片没有设置alt属性,当图片尚未载入时,会使人产生误会。 2.本人发现钦定古今图书集成/博物汇编/神异典/第294卷竟没有来自钦定古今图书集成/博物汇编/神异典的链入页面,可能是您编纂目录时存在缺漏。 3.您的文本来源中每行之间存在换行,这样会在最终正文之中行间多出一个空格,使文本不便使用。我建议删除行间换行,但是保留段间双换行。 --Midleading讨论2017年2月19日 (日) 01:58 (UTC)回复

@Midleading:我的文本来源中没有使用文本表示一些文字,这样的文字数量高达三万,是本人无法自行识别的。只能以后拜托各位贡献者逐个识别、替换(没准可以开发一个机器人)。2.刚才注意到这个问题,我会修正的。3.删除换行是英文维基文库的规定,但是本人认为,如果有换行可以方便校对,所以反对删除换行。至于空格的问题,我想等到以后向mediawiki报告,增加删除空格的功能。--维基小霸王讨论2017年2月19日 (日) 02:26 (UTC)回复
@维基小霸王:对问题1,我已经建立一个页面来收集已经识别出的字。这个页面格式很单一,便于机器人使用。其中,加感叹号的字不在基本多文种平面内,可以不修改,其它的则建议修改。等您有空了,可以根据该页面去除文字图片。--Midleading讨论2017年2月19日 (日) 03:17 (UTC)回复

您好,您导入《钦定古今图书集成》的速度较慢,请问您是否需要协助?另外,您是否有在维基共享资源上传的机器人,可以上传大量文件?—Midleading讨论2018年2月13日 (二) 11:53 (UTC)回复

回复:这种情况其实很常见,我在导入《四部丛刊》时就有人提出了问题。后来为了解决这个问题我设计了一个程式,从维基共享资源获取书的第一页、中部一页与最后一页,并与文字一同显示,这样就会发现阙页了。不知您是否也要考虑编写这一功能?—Midleading讨论2018年2月18日 (日) 05:34 (UTC)回复

现在新建的页面(如Page:Gujin Tushu Jicheng, Volume 113 (1700-1725).djvu/80‎Page:Gujin Tushu Jicheng, Volume 123 (1700-1725).djvu/83)又是错误的了。--Midleading讨论2018年2月19日 (一) 09:34 (UTC)回复

删除此页即可。晚些时候再改。--维基小霸王讨论2018年2月19日 (一) 09:49 (UTC)回复

现在新建的页面全是错误的。--Midleading讨论2019年8月2日 (五) 01:34 (UTC)回复

@Midleading:一般来说是扫描版的错误,我看看。--维基小霸王讨论2019年8月2日 (五) 01:36 (UTC)回复
确实是扫描版的错误,我找找有没有别的扫描版重新上传。--维基小霸王讨论2019年8月2日 (五) 01:39 (UTC)回复
@Midleading:已上传正确的版本。以后再有错误请告知,我用这里的文件替换就行了。--维基小霸王讨论2019年8月2日 (五) 02:09 (UTC)回复

机器人申请 编辑

虽然我不参与维基文库,但是看到您的申请之后认为可以直接拒绝您的申请,因为您未能说清楚您准备修改什么内容以及如何修改,也没有给出详细的操作计划。如果再次申请,请给机器人换一个一眼能看出是机器人的用户名,例如“小霸王Bot”或“小霸王机器人”等。--逆袭的天邪鬼讨论2017年3月18日 (六) 11:06 (UTC)回复

御定全唐诗 (四库全书本)/卷858 编辑

刚刚准备上传《七夕 (吕岩)》的时候发现您录入的《御定全唐诗 (四库全书本)/卷858》里面的诗序和作品未分开,导致我差点认为这本书录入有误。这里提出一个建议,虽然诗的序已经与诗的内容分开(单独列入了一列),但是还是请问是否可以将诗序用<small>的标签缩小?或者用“{{*|”使其在颜色上区分开来?--Horizon Sunset讨论2017年11月11日 (六) 13:59 (UTC)回复

竖排滚动 编辑

目前在firefox下竖排字变成上下滚动(即overflow-y:scroll)了。第一页自右向左排满之后,第二页接在第一页下方而非左方。不知道这样描述是否清楚。

及,钦定日下旧闻考_(四库全书本)中出现了“︵字位过密 无法显示︶”之字样,请予修复。 --达师 - 345 - 574 2017年11月30日 (四) 15:38 (UTC)回复

请记得在留言时署名 编辑

  您好,当您在所有讨论页或开头是“Wikipedia:”的页面中参与讨论时,请记得在您的留言结尾加入四个波浪号标记(~~~~,可使用 按钮)来签名,使系统自动将您的用户名或IP地址以及发表评论的时间加入到页面中。这些信息在参与讨论时对其他人将很有用。可能需要签名的页面例如 Talk:钦定古今图书集成。谢谢您的参与。 --Cewbot讨论2018年2月19日 (一) 08:52 (UTC)回复

未来将全文导入《文渊阁四库全书》 编辑

本人现在正在维基共享资源上传《文渊阁四库全书》,现在已上传12049 MB,但是因为文件太多,学校又按上网流量收费,不久后将停止上传。一段时间后,可能会开始导入《文渊阁四库全书》。请阁下讨论文渊阁四库全书全文的导入方法。目前有几点需要研究:

  • Page页面带来大量格式问题,例如空格问题、竖排文本中如何显示Page页码。
  • Page页面导入后,维基文库编者对主命名空间的编辑将丢失。
  • Page、Index页面与主命名空间的四库全书本页面的对应关系无机器可读说明文件,需要人工整理。
  • 全览页面的节点数更加紧张。
  • 来源没有SKAnchor标记,维基文库编者的编辑丢失后不知如何添加SKAnchor。

——Midleading讨论2018年3月1日 (四) 03:33 (UTC)回复

我在维基共享资源有机器人账号,我可以用家用电脑上传。
  • Page页面带来大量格式问题,例如空格问题、竖排文本中如何显示Page页码。
    空格问题、竖排页码与导入无关,而是维基文库系统的问题。建议导入即可,导入后再去向上反映,或者本地解决即可。
  • Page页面导入后,维基文库编者对主命名空间的编辑将丢失。
    之前的四库全书是我在一年前导入维基文库的,用户编辑十分有限。阁下是否方便写程序,检查有哪些页面被编辑过,检查之后人工合并至page页面。即日起,便可禁止编辑相关页面,请在MediaWiki:Titleblacklist加入相关的正则表达式,使用方法见[1]
  • Page、Index页面与主命名空间的四库全书本页面的对应关系无机器可读说明文件,需要人工整理。
    我使用原文对文本进行分割的。由于四库全书格式比较规范,程序应该可以对应多数内容。这一步可以导入文本后再进行。
    如果阁下的程序有机读的分页标题,建议发上来,我想尝试对应一下。
  • 全览页面的节点数更加紧张。
    我不知道如何处理,可提请社群是否删除。
  • 来源没有SKAnchor标记,维基文库编者的编辑丢失后不知如何添加SKAnchor。
    以前我是把所有字数小于一定的行都加上SKAnchor,阁下可以用{{Visible anchor}}代替。维基文库编者的编辑数量还不大,可以人工补上。
  • 其它问题:
    @Kanashimi:编写的年号纪年的小工具比{{YL}}准确。建议使用该校工具的数据进行类似的年代标注。如果认为这样的程序过于复杂暂无法写出,建议暂停纪年标注,待以后有机器人创建再行标注。

--维基小霸王讨论2018年3月1日 (四) 04:18 (UTC)回复

目前我会首先为《四部丛刊》新建主命名空间页。——Midleading讨论2018年3月1日 (四) 03:41 (UTC)回复

建议先建几个示例页面,供社群讨论修改样式,之后再广泛创建。--维基小霸王讨论2018年3月1日 (四) 04:19 (UTC)回复
由于先前xml导入的不少页面未被计算进页面数,而机器人创建的条目则会。估计所有工作完成后维基文库页面数可翻1~2倍。--维基小霸王讨论2018年3月1日 (四) 04:24 (UTC)回复

导入计划仍无确定实施日期,目前不宜保护所有四库全书本页面,等到全部导入后准备以Page方式替换现有页面时再确定下一步方案。——Midleading讨论2018年3月1日 (四) 13:00 (UTC)回复

至少那个故宫的图片是有版权的,我会移除前3页、最后一页之后再上传。--维基小霸王讨论2018年3月1日 (四) 15:29 (UTC)回复
我同意这样做,现在这样的做法仅仅是因为没有办法将这么多文件的前3页都去掉。维基媒体的服务现在不稳定,刚刚的上传都因为<?xml version="1.0"?><api servedby="mw1234"><error code="internal_api_error_UploadChunkFileException" info="[WpgTzQpAMEUAAFnHQ7EAAABE] Exception caught: Error storing file in '/tmp/WFqLvD': backend-fail-internal; local-swift-codfw" /></api>出错了,还有11部没有上传,明日继续。请上传前检查维基共享资源是否已经存在该文件。目前维基文库有很多更重要的事需要机器人做,例如清理Category:包含Unicode私有区字符的条目、为《四部丛刊》建立主页面、清理{{PD-old}}等,至少需要几个月后才会开始导入。——Midleading讨论2018年3月1日 (四) 15:39 (UTC)回复
建议暂停上传。我认为可以按这里的数据分割并且命名,再上传。
好的,不过我现在光是列出机器人工作队列都已经忙不过来了,我没有软件和带宽来分割这么多文件,如果你可以帮助一下更好。文件上传暂时停止。感谢你的支持。--Midleading讨论2018年3月1日 (四) 15:58 (UTC)回复
对,维基文库还有很多别的工作。


最近我比较忙,先记录一下怎么做:

https://pulsearch.princeton.edu/catalog?f1=in_series&format=atom&page=(1到35)&per_page=100&q1=景印文淵閣四庫全書+%3B&search_field=advanced&sort=cataloged_tdt+desc%2C+pub_date_start_sort+desc%2C+title_sort+asc

找到编号,在

https://pulsearch.princeton.edu/catalog/3909751.ris

下载

英文名:TI - Zhou yi ji jie : [17 juan] / (Tang) Li Dingzuo zhuan.

中文名、作者:T2 - 周易集解 : [17卷] / (唐) 李鼎祚撰.

页数N2 - p. 603-892 ; 28 cm.

册数T3 - 景印文渊阁四库全书 ; 第7册

之后再用页数和册数提取djuv文件,同时建立说明文件。--维基小霸王讨论2018年3月1日 (四) 15:59 (UTC)回复

关于Year link模板的使用:Kanashimi开发的小工具需要访问 https://kanashimi.github.io ,这并不符合隐私方针,所以不会被默认启用。这样,Year link模版仍有其价值。—Midleading讨论2018年3月3日 (六) 05:02 (UTC)回复

@Midleading:我是想说,此小工具中使用的标记年代的技术较为先进,可根据前文推断朝代,而且可转换年月日而不仅仅是年。因此,可用Kanashimi的技术建立机器人,继续通过Year link模板进行标记。Year link模板可同时修改升级为Date link模板。--维基小霸王讨论2018年3月3日 (六) 05:07 (UTC)回复
@Midleading[2]包含一些书目的页码信息,我从程序中解压到的DDE文件夹可能包含数据,但不知道如何打开文件。请问如何打开?--维基小霸王讨论2018年3月4日 (日) 04:41 (UTC)回复
我最近要参加研究生招生考试,没有时间完成这种复杂操作。建议阁下有时间时先将《古今图书集成》完成,维基文库还亟需录入新文章,还有很多散落在个人网站的没有收入大型丛书的文章需要人工录入。到时候我会将有关资料保存到维基文库的。—Midleading讨论2018年3月4日 (日) 05:28 (UTC)回复
其实我也挺忙的,由于相同的原因。😁--维基小霸王讨论2018年3月4日 (日) 05:45 (UTC)回复
应该建议维基技术团队开发新的校对方法,目前这种将文字档和影印档绑在一起的校对方式,需要切割文字档来搭配影印档,过程太过繁琐。有标题页及影印档的书籍,在标题页新增数个[校对]按钮,做些设定连接二者,即可开始校对,不需要切割文字档来搭配影印档,是比较简单的方法。--Lonicear讨论2018年3月19日 (一) 16:43 (UTC)回复
现行的方法需要分页编辑,确实有些繁琐。在同一页就能校对可能更好。不过,只要有显示图像的“校对”按钮,就需要页码和图像的对应信息,因此本人认为应该保留page页面,同时可以开发在同一个页面就能编辑多个page页面的方法。--维基小霸王讨论2018年3月19日 (一) 17:04 (UTC)回复

使用Lua重写SKchar后,节点数超出限制的问题得到解决,可以保留全览页面。--Midleading讨论2018年4月10日 (二) 16:07 (UTC)回复

胡适文集 编辑

您好!谢谢合作。我手头也有胡适文集12卷的PDF,我是按照这个文本来OCR和校对的。如果根据您的胡适文存,可能内容以及版式等会有所出入。 Hamham讨论2018年3月2日 (五) 00:16 (UTC)回复

胡适文集是1998年出版的,有版权.还是1930年代出版的<胡适文存>更符合维基文库的版权规定.--维基小霸王讨论2018年3月2日 (五) 03:23 (UTC)回复
其实胡适这类非编辑类作品的版权保护期是根据作者去世年份来起算的,跟文集的出版时间是无关的。因为这类编辑并没有改变作品本身的表现形式。当然,Zhxy兄提到的美国著作权法下,胡适作品仍然没有进入公共领域,这是个大麻烦。无论是30年代出版的文存还是98年出版的文集,目前在美国法看来都不能自由上传。所以我暂时会停下来,可能得转移到加拿大网站去。谢谢!--Hamham讨论2018年3月2日 (五) 07:56 (UTC)回复
经过您这一解释,我理解“消极容忍”的真正含义了。哈哈哈,那我就继续放心地帮助他人了。多谢多谢!关于胡适文集的PDF如何上传,我再想想办法。--Hamham讨论2018年3月2日 (五) 10:46 (UTC)回复
您好。感谢您的建议。但说实话,胡适文存的PDF扫描版质量比较差,文字辨认难度有点大。而且我本身上传的文字稿已经是根据《胡适文集》(北大版)做了相当细致的校对的(光是《胡适文集》第12集就耗费了我大半年的时间来校对),所以恕我暂时无法将这些文字上传到文存的对应页面去了。不过今后如果有力气,我可能会将胡适文集全文的PDF上传到网上,这个应该也是不侵犯版权的(起码属于消极容忍,哈哈)。--Hamham讨论2018年3月5日 (一) 02:44 (UTC)回复
排版是有版权的,维基共享资源应该不能消极容忍。--维基小霸王讨论2018年3月5日 (一) 02:55 (UTC)回复

繁体版《胡适文集》 编辑

您好,我注意到已经有一个机器人帮我移动了条目。非常感谢这位机器人的工作。下一步我设立新条目时会注意直接改为繁体。但文章正文我还是用简体录入/校对,这个转换工作只能交由繁简转换工具去完成了。有点小任性,求谅解。--Hamham讨论2018年3月7日 (三) 08:05 (UTC)回复

回复 编辑

我的观点也是目前不要拆分。个人认为人工拆分大量djvu文件是一件费力不讨好的事,既使有手动拆分方法,也不如将这时间用于做其他更有意义的事,等日后有工具可以从工作列表自动拆分大量djvu文件时再拆分会更好。维基媒体目前允许公有领域的文件中含有少量非自由内容,不过仍难以评价法律风险,特别是国内有将公有领域资源过度版权化的倾向,很多国家强制性标准、古籍、司法文献都被用版权保护措施保护了,或者商业出版了。——Midleading讨论2018年3月9日 (五) 03:19 (UTC)回复

导入《四部丛刊》目录的任务已经结束,现在任何人都可以编辑这些目录。更改SK list的任务没有导入《四部丛刊》正文重要,何况由于影印本错误百出,导入正文都需要一卷一卷地人工核对。 Midleading讨论2018年4月4日 (三) 05:12 (UTC)回复

钦定日下旧闻考 (四库全书本)/卷090 编辑

增凉水河通南海子乃所以宣泄海子所出之水大兴县志臣等谨按良乡县南亦有凉水河水经谓之乐水与都城外之凉水河异派此河源出右安门外西南凤泉东流经万泉寺分为二支一南经草桥一北经广恩寺俱东注永胜桥复合为一东南流至小红门之西入

这里的“臣”原书是否另起一行? --达师 - 370 - 608 2018年9月10日 (一) 14:18 (UTC)回复

是。影印卷九十 页四。 --Liouxiao讨论2018年9月10日 (一) 14:26 (UTC)回复

中华人民共和国条约数据库 编辑

[3]。这个东西处理得不错,有几千个条约,而且保持了当时的繁简用字(以及过渡期的混用)。如有可能的话希望能够导入。 --达师 - 370 - 608 2019年1月3日 (四) 03:34 (UTC)回复

请问如何访问文本版?--维基小霸王讨论2019年7月12日 (五) 16:03 (UTC)回复

邀请参与讨论 编辑

写字间上有关于汇入者权限改为跨维基汇入者的讨论,这影响了您目前的权限,因此邀请前来发表意见。--Jusjih讨论2019年10月10日 (四) 02:44 (UTC)回复

Wikisource:管理员/维基小霸王 编辑

遗憾。因为支持力道不足,所以才建议以不通过结案。请问仍要异议,像是延长投票吗?--Jusjih讨论2020年5月3日 (日) 23:06 (UTC)回复

看来只能结案了。为维基文库贡献了这么多,却不能选上管理员,真失望。 维基小霸王讨论2020年5月4日 (一) 00:06 (UTC)回复

别失望。贡献多不自动能选上管理员,在英文维基百科更常见。请问Zhxy 519质疑的“早年间大量上传的机器转换文献至今烂尾”是何文?再加强仍有机会的。--Jusjih讨论2020年5月5日 (二) 01:34 (UTC)回复

如何在Template:SKchar/字符表中查找相应的的字符图片? 编辑

此页面拥有四千多字,请问是否可以迅速查找需要的字符?--Horizon Sunset讨论2020年5月18日 (一) 01:44 (UTC)回复

明白了,谢谢。本人在校对文本来源的时候发现了一些异体字,想将这些字符图片插入文本来源,不知是否合适?--Horizon Sunset讨论2020年5月18日 (一) 02:24 (UTC)回复

页面:Sibu Congkan0074-徐锴-说文解字系传-8-5.djvu/139中有一字为上龟下火,请您看一下。--Horizon Sunset讨论2020年5月18日 (一) 02:42 (UTC)回复

维基数据 编辑

您好,我有个小工具能查询出维基百科页面对应的维基数据号码,这个工具其实很简单,就是先查一遍繁体,查不到再机器转换成简体再查一遍。这个小工具目前仅以源代码方式存在,用于构建维基数据机器人。您如果需要的话我们再讨论讨论具体怎样编译成独立版,不过也有个更好的方式,就是先把需要的维基百科数据项先全加上zh-hans/zh-hant标签,这样不用专用工具也能查出来了。--Midleading讨论2020年7月18日 (六) 12:37 (UTC)回复

但是这样没法查重定向,如谷歌重定向到google。用谷歌就查不着google的维基数据编号。--维基小霸王讨论2020年7月18日 (六) 13:03 (UTC)回复
用wbSearchEntity或者SPARQL都能查出别名,别名的数据一般是从重定向导入的,能查出来。问题不在于查不出来,而是查出一大堆不相干的东西,例如维基文库中的一首诗或者维基百科一个同名的明朝人物,还要加筛选条件。--Midleading讨论2020年7月18日 (六) 14:54 (UTC)回复

另外我打算给每一本书不管有没有维基文库页面都新建一个维基数据项,可以暂时先链接到维基共享资源分类,这样日后(马上)可以把作者等信息加进去,不知道您有没有兴趣?--Midleading讨论2020年7月18日 (六) 15:07 (UTC)回复

我正有此意。我想从二十四史开始,除了作者,还将每卷提到的人物都导入wikidata。之后可以让wp、ws相互显示链接,用户以后直接在wikidata添加别的链接,两站也能自动更新。
不过在此之前,我还是想先彻底解决标点问题。台湾明确说古文的后加标点不受著作权保护,大陆也曾经这么说过。但最稳妥的办法还是用人工智能标点,之后由志愿者修正。目前《古今图书集成》的标点已经彻底使用人工智能标点。虽然在引号方面有较多错误,但在断句方面很棒。我希望人工智能标点作者帮忙标点其他著作,但是他没有收到回应。我决定自己使用google的深度学习工具BERT标点,但苦于没有古代汉语的预训练模型(需要使用大量无标点文本进行预训练,再进行训练)。这需要大量的计算资源,我正在尝试解决。--维基小霸王讨论2020年7月18日 (六) 15:26 (UTC)回复

您找不到闽南语维基文库么? 编辑

我发现阁下在写字间的一个质疑“[mnp]闽北、[nan]闽南、[cdo]闽东?”感到非常诧异,闽南语维基文库已经建站多年了吧。--Liuxinyu970226讨论2020年7月24日 (五) 23:32 (UTC)回复

我送的意思是说连福建一地的方言代码就有三种至多,难道一地就要建立三种方言站吗?我对于中文分家的观点已经多次陈述,此处不再重复。--维基小霸王讨论2020年7月25日 (六) 00:30 (UTC)回复

错误 编辑

陜西通志 编辑

陜西通志 (四库全书本),应该是“”而不是“”。本页面及所有子页面皆有此错误。--- Peacearth讨论2020年12月1日 (二) 17:14 (UTC)回复

[4]更像是“陜”。--维基小霸王讨论2020年12月2日 (三) 05:22 (UTC)回复

古籍 繁体 竖排文字OCR识别求助 编辑

你好,NB的 维基人,请教一下,对于竖排的繁体文字,有什么好的OCR工具可以推荐吗?多谢 --Bangbang.S讨论2021年3月15日 (一) 01:44 (UTC)回复

https://ocr.gj.cool/ 维基小霸王留言2023年6月16日 (五) 07:16 (UTC)回复

全唐文页面嵌入消歧义页 编辑

全唐文/卷0137为例,该页面嵌入了议沙门不应拜俗状,为消歧义页。另见Category:消歧义,可以看到多个全唐文或全唐诗页面。 曾晋哲讨论2021年4月9日 (五) 01:04 (UTC)回复

我了解到这个问题了。--维基小霸王讨论2021年4月9日 (五) 01:52 (UTC)回复

已发送电邮 编辑

已发送电邮 Midleading留言2022年5月18日 (三) 04:15 (UTC)回复

@Midleading已回复。--维基小霸王留言2022年5月18日 (三) 06:34 (UTC)回复

图书馆备份项目的韩国古文图书馆 编辑

Blahhmosh留言2022年7月1日 (五) 21:04 (UTC)回复

谢谢! 维基小霸王留言2022年7月2日 (六) 02:51 (UTC)回复

韩国独立纪念馆所藏书籍:https://search.i815.or.kr/main.do Blahhmosh留言2022年7月4日 (一) 23:51 (UTC)回复
记录遗产之古图书:https://book.ugyo.net/ Blahhmosh留言2022年7月7日 (四) 21:44 (UTC)回复
高丽大学海外韩国学资料中心:http://kostma.korea.ac.kr/ Blahhmosh留言2022年7月8日 (五) 00:09 (UTC)回复
韩国的知识内容:https://www.krpia.co.kr/ Blahhmosh留言2022年7月10日 (日) 22:25 (UTC)回复
韩国佛教全书:https://kabc.dongguk.edu/index Blahhmosh留言2023年7月31日 (一) 01:05 (UTC)回复
国史编纂委员会图书馆:https://library.history.go.kr/ Blahhmosh留言2023年8月30日 (三) 19:23 (UTC)回复
谢谢。希望有一天可以通通转载过来。 维基小霸王留言2023年8月31日 (四) 12:11 (UTC)回复
http://db.hiks.or.kr Blahhmosh留言2024年3月1日 (五) 16:56 (UTC)回复

钦定古今图书集成含有大量错误Annotation使用 编辑

搜寻“Annotation intitle:钦定古今图书集成”可以发现有很多页面的Annotation超过了一行,导致模板缺少结束标签。 Midleading留言2023年6月15日 (四) 14:54 (UTC)回复

应该不是换行,而是开始和结束位于前后两个page页面导致的。 维基小霸王留言2023年6月16日 (五) 07:15 (UTC)回复

Re:界面编辑请求 编辑

搬了英文版的小工具过来,现在页码已经可以正常显示了。但是小工具似乎并不完全起作用,因此没有设置默认启用。请暂时在Special:Preferences中设置启用。 达师 - 370 - 608 2023年6月18日 (日) 04:01 (UTC)回复

《侠义佳人》的几个版权疑问 和 先以简体字录入 编辑

我看到您提到的扫描原件初集中集页面下面有许可协议,说是属于公有领域。不知道上传文本是否也能按这个协议“法人的作品首次发表50年后或自创作之日起50年未发表,进入公有领域”?我不清楚算不算法人。

另外,我依据的是百花洲文艺出版社1993年出版《中国近代小说大系》中收录的标点符号、分段、校点等,有没有这书的版权问题?

能用简体字写入吗?以我有的百花洲文艺出版社1993年出版《中国近代小说大系》纸质书,我使用扫描的方式得到简体版本。直接转换成繁体字我不晓得会不会存在偏误,因为不精通繁体字。以我的能力,只能首先用简体字文本,如果有想转换繁体字及对照扫描原件的人,后续再完善,是否可行? 0epvurf留言2023年8月12日 (六) 01:37 (UTC)回复

您好 您可以先用简体字录入 原文的标点符号都是句号 您可以先使用记事本把逗号替换成句号 这样跟原文就差不多了 文本如果有后人写的注释 录入前请删除 维基小霸王留言2023年8月12日 (六) 02:42 (UTC)回复
谢谢回复 0epvurf留言2023年8月12日 (六) 04:31 (UTC)回复

已向你发送邮件 编辑

已向你发送邮件,请注意查收。 Midleading留言2024年1月4日 (四) 15:44 (UTC)回复

已向你发送邮件,请注意查收。 Midleading留言2024年1月6日 (六) 04:29 (UTC)回复
已向你发送邮件,请注意查收。 Midleading留言2024年1月6日 (六) 09:34 (UTC)回复

Wikimedia OCR现在没有"We can not access the URL currently"错误了 编辑

我刚才看了一下,这个问题确实解决了,现在可以重新讨论是否需要大量OCR。 Midleading留言2024年1月14日 (日) 03:04 (UTC)回复

好 不过请注意我提了https://phabricator.wikimedia.org/T352503 GOOGLE不能识别竖排线外标点 --维基小霸王留言2024年1月14日 (日) 04:00 (UTC)回复

Google的产品问题只有Google员工可以解决,在这里提没有用。需要假定这个问题有直到更新的OCR出现前永远不会被解决的可能。 Midleading留言2024年1月14日 (日) 04:20 (UTC)回复
有道理 维基小霸王留言2024年1月14日 (日) 06:04 (UTC)回复
请稍等,我去提。 维基小霸王留言2024年1月14日 (日) 06:11 (UTC)回复

新春快乐 编辑

祝现实安好。

如果别人打你,在保证自己安全的情况下还手。这是最基本的道理

新春快乐! Assifbus留言2024年1月23日 (二) 03:54 (UTC)回复