维基文库讨论:光學字元辨識

Kcx36在话题“OCR软件使用指引”中的最新留言:8个月前

對於手寫古籍 古籍酷與google OCR的比較

编辑

圖像:https://upload.wikimedia.org/wikipedia/commons/thumb/b/bd/WUL-i13_00871_%E6%A4%8D%E7%89%A9%E5%AD%A6_1.pdf/page18-1599px-WUL-i13_00871_%E6%A4%8D%E7%89%A9%E5%AD%A6_1.pdf.jpg


https://gj.cool/api_demo

光處漿最多或云植物之 漿猶動物之脂也 此體生於葉中木中者其初細胞甚小且少近管處又生 新者漸生漸多體以漸而大故葉與木亦以漸而大也 諸細胞相粘合必有隙隙中或有油或有香膠充滿焉又 或有養氣或有液道其液如水液道之或通皮外或通 葉外以接外氣凡有油與養氣者其口或大或小於細胞 不定惟液道口必甚小非顯微鏡不能察焉 其功用令流質徧行植物體中胞雖無漏孔流質自能沁 入復沁出焉 嫩木中聚胞體節節相聯如甲木老則中之細胞消盡而 成長管剖其管細察之有無數細點凹跡也如心 此體最易爛凡葉花果落地後與 植物生命之氣隔絕其中之炭質 卽合養氣散爲炭氣輕氣卽合養 氣化爲水餘如硫磺鄰謙青鹽等質卽仍入土故葉花果 墮地後其軟處必先壞核置乾處不壊遇濕亦卽爛也 木體 木體乃合無數長管爲一體管柔而勒長而甚細合七管


https://ocr.wmcloud.org/

光處漿最多或云植物之漿猶動物之脂也 此體生於葉中木中者其初細胞甚小且少近管處又生 新者漸生漸多體以漸而大故葉與木亦以漸而大也 諸細胞相粘合必有隙隙中或有油或有香膠充滿 或有養氣或有液道其液雄水液 液如水液道之口或通皮外或通 以接外氣凡有油與養氣者其口或大或小於細胞 心惟液道之口必甚小非顯微鏡不能察焉 流質編行植物體中胞雖無漏孔流質自能沙 其功用令流質編 入復沁出焉 嫩木中聚胞體節相聯如甲木老則中之細胞消盡而 成長管剖其管 Q有無數細點凹跡也如乙 此體長易爛凡葉花果落地後與 植物生命之氣隔絕其中之屍質 配合養氣散爲炭氣輕氣郎合養 氣化爲水餘如硫花 靑鹽等質卽仍入土故葉 墮地後其軟處必先壞核置乾處不壞遇濕亦自爛也 木體 木體乃合無數長管爲一體管柔而靳長而甚組合七管 學 葉


https://zh.wikisource.org/w/index.php?title=Wikisource%3A%E6%B2%99%E7%9B%92&diff=2292668&oldid=2292667 比較二者可以發現,古籍酷的識別準確率更高。但是古籍酷的缺點是不能識別標點符號。 維基小霸王留言2023年5月30日 (二) 04:19 (UTC)回复

公有领域文献整理的几个阶段

编辑

理想的完整步骤是:扫描上传到维基共享资源、OCR、加标点、自动写成百科全书。

扫描上传到维基共享资源:现在已经传了很多了,以后还要继续。

挑選出最好的版本:一些書有很多版本,同一版本有多個來源的掃描。人工挑选出其中最好的一個文件,用於OCR。

OCR:對於不同時代的作品,印刷和排版方式不同。挑选最合適的OCR工具,转换为文本。

加标点:电脑自动加标点。

自动写成百科全书:这是最终极的一步。有的文本就像天书一样。现在有chatgpt这样的工具,可以将这些书提取信息写成百科全书条目。由于来源是公有领域的,条目大篇幅引用也没关系,只要注明来源即可,这样可便于读者查证。

大型语言模型可以综合多个语言的文本,这样就可以使用所有语言的所有共有领域材料写成所有语言的条目,真正实现“地球上的每一个人都可以自由访问所有人类知识的总和”,这是人类过去从未实现的。

希望有专业的人士来做这一步,这会是一项历史性的创举。 維基小霸王留言2023年6月29日 (四) 02:50 (UTC)回复

NDL古典籍OCR ver.3

编辑

出新版了,據說對古籍有改良。(@維基小霸王:)Fish bowl留言2024年2月7日 (三) 23:50 (UTC)回复

谢谢 以后我看看 維基小霸王留言2024年2月7日 (三) 23:58 (UTC)回复

大规模OCR图书馆

编辑

之前讨论过Wikisource:写字间/存档/2023#OCR圖書館,但遇到了Google OCR无法访问图片的问题。现在此问题已经解决了。我们可以开始大规模识别图书扫描了。

一个潜在的问题是,很多书具有多份扫描档。每个都识别是没有意义的,最好的方式是像@midleading:提出的那样,开发一个工具,允许各位用户批量识别不同的书。我已经提出了功能需求,有更多需求请提出。

另一个问题是,使用哪种OCR软件。Google OCR对于识别1900年以来的印刷体合适,但是无法识别竖排排版位于行外的标点。对于古文,古籍酷效果更好,而且支持自动加标点,对开源项目有支持。我还测试了日本国立国会图书馆开发的OCR软件,打开是因为是针对日文训练的,效果不好。请大家考虑在Wikisource:OCR/测试加入各种类型文件的例子,以及测评更多OCR软件。 維基小霸王留言) 2024年1月15日 (一) 13:33 (UTC

我刚才录入了来自这里的文本,感觉还不错,这也是一个选择。 Midleading留言2024年1月15日 (一) 13:37 (UTC)回复
匹配文本与文件也是个问题。 維基小霸王留言2024年1月15日 (一) 13:51 (UTC)回复
2017年錄入四部叢刊的時候就是人工匹配的,匹配中發現了大量缺頁和重複,現在我認為也可以人工匹配。 Midleading留言2024年1月15日 (一) 14:22 (UTC)回复
导入现在已有的文本应该要优先于自己识别,有很多书其实已经有已有的数字化文本,没必要再重来一遍。目前这个来源的文本已经具备导入维基文库条件了。 Midleading留言2024年1月16日 (二) 09:45 (UTC)回复
這種識別作業會有方便後續人工追蹤維護標籤對吧?—— Eric Liu留言 2024年1月15日 (一) 14:38 (UTC)回复
有沒有用戶願意維護就不知道了,關鍵是看有沒有用戶在維基文庫讀我們錄入的書。 Midleading留言2024年1月15日 (一) 14:46 (UTC)回复
最基本的一个作用是作为图书的全文搜索库。现在,维基共享资源上传了那么多图书,是无法全文搜索的。维基百科的搜索引擎和维基文库是相连的,完成这个项目后,在搜索维基百科的时候,右边就会有一个框框显示出几乎所有中文公有领域图书的搜索结果,这不是很棒吗?
至于标签,这种校对页面默认的未校对标签就描述了这些页面的状态。即使不是大规模的机器识别,很多用户输入之后不校对,跟这样做的结果是一样的。 維基小霸王留言2024年1月15日 (一) 23:39 (UTC)回复
对于印刷体Google OCR效果很好,但它的标点符号大多是半角的,建议OCR之后都替换一次。简体测试文本刚好就是我用Google OCR录入并校对的。--Kcx36留言2024年1月15日 (一) 15:47 (UTC)回复
竪排古籍中低几格或有空白的短段落,Google OCR有時無法保證行序、字序,還會把一行拆成幾塊。對雙行注文識別弱,即使是較高像素的圖片。Andayunxiao留言2024年1月15日 (一) 16:04 (UTC)回复
录入古文还是用古籍酷最好,不仅识别效果好,还能用人工智能加标点。 維基小霸王留言2024年1月15日 (一) 23:32 (UTC)回复
@Andayunxiao 對於古文,gj.cool優於Google。Google gj.cool 維基小霸王留言2024年1月16日 (二) 04:51 (UTC)回复
gj.cool给的额度很小 应该用不了 維基小霸王留言2024年1月16日 (二) 08:48 (UTC)回复
没关系,我们可以把这个功能放到WMCS里面,让其他用户使用,估计用户应该不会用完这些额度 Midleading留言2024年1月16日 (二) 09:40 (UTC)回复
古籍酷看來效果很好,而且沒有缺字。中文古書通常行列分明,惜 Google OCR 未能利用這一點。額度就算小,能利用也是對用戶有益的。我無意用 OCR 錄入大量内容,僅作範例。 Andayunxiao留言2024年1月17日 (三) 15:34 (UTC)回复

竖版图书行外标点无法识别的问题可能将会解决,2月19日Google API更新后,请大家注意测试。--維基小霸王留言2024年1月19日 (五) 02:03 (UTC)回复

借此話題提個想法:我很喜歡Ctext的 字符識別連結頁面,不僅美觀,容易定位,而且其底層支持兩種輸入和修改模式,不需要用戶會使用排版代碼。效果上更是同一段源碼有三種展示模式——簡單修改模式(不合并行)、竪排陣列模式,和正文橫排模式(合并行)。不知道在 Mediawiki 的框架下我們能否實現類似功能,讓用戶只輸入一次,就可以有不同的展示方式。Andayunxiao留言2024年1月19日 (五) 17:02 (UTC)回复

OCR软件使用指引

编辑

我认为维基文库对OCR软件的使用需要提出指引,避免将来某些用户大量创建低质量的文本页面充斥整个维基文库,避免管理员删除上百个甚至上千个低质量页面:

  • 当维基文库收录了原文对应数字化文本时,不应大量创建错误率高于该数字化文本的页面。
  • 当维基文库尚未收录原文对应数字化文本,但可公开访问的外部网站收录了原文对应数字化文本时,不应大量创建错误率高于该外部网站所提供的数字化文本的页面。

Midleading留言2024年1月16日 (二) 05:35 (UTC)回复

我用chatgpt将讨论内容转换成了方针,请修改:Wikisource:OCR#大规模OCR计划維基小霸王留言2024年1月16日 (二) 13:35 (UTC)回复
新手提問!請問有給古籍PDF免費做OCR的網站嗎? Fremax留言2024年1月17日 (三) 10:47 (UTC)回复
@Ericliu1912Wikisource:OCR有必要移动到Wikisource:光學字元辨識吗?英文缩写更常用,中文还涉及地区词,地区词转换不知道为什么没生效。--Kcx36留言2024年1月17日 (三) 11:22 (UTC)回复
正式名詞的話,第一次提到使用中文名稱為宜,之後可以多用簡稱。地區詞轉換已經修復,我也不知道是怎麼回事( —— Eric Liu留言 2024年1月17日 (三) 12:04 (UTC)回复
維基文庫是沒有地區詞轉換的,因為不需要轉換原文中的地區詞 Midleading留言2024年1月17日 (三) 14:37 (UTC)回复
文庫目前只有簡體和繁體模式,沒有開啓地區詞轉換。技術上,w:維基百科:繁简处理 提到, 繁簡轉換總共通過三個轉換表來實現,這三個表所有維基項目共用,其中不包括地區詞。這一點是百科的周全考慮,而不是疏忽。見w:維基百科:字詞轉換/2015年轉換表更新說明,轉換表收錄相對保守,有些地區用字差異也未收入,如「著」,「着」。Andayunxiao留言2024年1月17日 (三) 15:54 (UTC)回复
不贊同在作品頁使用地區詞轉換。文庫作品是對已有作品的複制。應該保持這些作品的完整性和原貌。幫助空閒提供轉換有益。 Andayunxiao留言2024年1月17日 (三) 16:00 (UTC)回复
我和Ericliu1912在说的仅仅是Wikisource:光學字元辨識的页面标题“光學字元辨識”和“光学字符识别”。--Kcx36留言2024年1月17日 (三) 16:07 (UTC)回复
是我離題太遠了,抱歉抱歉。標題轉換是怎樣生效的,是不是通過地區詞轉換,我還不清楚。 Andayunxiao留言2024年1月17日 (三) 16:23 (UTC)回复
我觉得没必要移动,大家都知道OCR是什么意思。w:Wikipedia:格式手册/缩写上说:“‘大家都这么用’,那么我也可以这么用。”--維基小霸王留言2024年1月19日 (五) 02:02 (UTC)回复
@Blahhmosh Lemonaka留言2024年1月24日 (三) 00:32 (UTC)回复
Yes? What's up? @Lemonaka Blahhmosh留言2024年1月24日 (三) 02:15 (UTC)回复
返回到项目页面“光學字元辨識”。