关注我们

快速入口

机构入驻

公益动态

识典古籍

火山引擎

飞书公益计划

关于我们

基金会简介

公益平台简介

信息公开

社会责任报告

联系我们

咨询与合作:gongyi@bytedance.com

公益平台:gongyipingtai@bytedance.com

地址:北京市海淀北二街10号9层0902室

全国社会组织查询

非法社会组织举报

2025 字节跳动基金会京公网安备11000002002068号京ICP备12025439号-7

"识典古籍"上线,千万字符在这里跳动

2022年04月07日

近日,字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”测试版正式上线了。​
​
目前,平台已经整理上线了390部经典古籍,共计3000多万字,主要来自《四部丛刊》;预计在3年内,我们将完成10000种古籍数字化整理,基本覆盖儒家、道家和佛家的核心典籍目录,并对全社会免费开放,公众可以通过识典古籍平台高效检索、阅读和利用古籍。​
​
感兴趣的朋友可以在PC端进入网站https://www.shidianguji.com/进行体验。​

​
​
​

一直以来,古籍数字化整理面临着技术、资金等诸多困难,导致数字化进展缓慢,或使用体验不佳等。据不完全统计,中国现存古籍约20万种,其中已经完成数字化影像扫描的有8万种,而实现文本数字化的仅3-4万种。​
​
今年3月,字节跳动与北京大学开展合作,希望通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。​
​
01. ​
识典古籍测试版的四个特点​
​
目前上线的“识典古籍”测试版有以下四个特点:向公众免费开放,实现知识共享;采用影印底本,来源权威;繁简一键转换,方便阅读;灵活检索古籍,运行流畅。​
​
首先是免费开放,知识共享。为了让更多人阅读到古籍里的内容,促进知识的共享,“识典古籍”数字化平台将长期免费向全社会开放,同时,我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人一起共建。​
​
其次是影印底本 ,来源权威。进入“识典古籍”测试版,用户任意阅读一本古籍,均可通过点击“原本影像”,查看古籍的底本影印图像。通过左右对照,大家既能用现代人习惯的方式顺畅地读懂古籍内容,也能感受原汁原味的古籍。​

​
​
​

第三是,繁简转换,方便阅读。点击右上角繁简体转换功能,可轻松切换繁简字,方便专业研究人员、古籍爱好者以更加高效便利的方式读懂古籍内容。​

​
​
​

第四是,灵活检索,运行流畅。用户还可以通过关键词检索,快速找到来自不同古籍的相关内容,方便大家对文献内容进行灵活运用。依托字节跳动积累的产品研发与设计能力,“识典古籍”测试版也保证了使用过程的稳定、快速。​

​
​
​

02. ​
古籍是如何实现数字化的?​
​
“识典古籍”测试版的开发与上线,依托于字节跳动与北京大学在OCR文字识别、自然语言处理、知识图谱等技术领域的合作。​

古籍的数字化主要经历了文字识别、自动标点、命名实体识别三个过程。​
​
第一,在文字识别阶段,OCR技术首先将单个文字从图片中一个个切割开,再将切分好的图片送入模型,识别出具体文字,最后结合文字内容和文字位置获取阅读顺序,完成了文字的识别。目前行业内OCR的识别准确率平均为93%至94%,而“识典古籍”将这个数字提高到96%至97%。​


​
​
​

第二,在自动标点阶段,要通过算法,给原本缺少断句的古籍自动打上标点符号。文字识别步骤中被识别出的文字,在编码后被转换为计算机语言,通过计算,文字被打上标点并输出。举个例子,“学而时习之不亦说乎”,自动标点后的结果是“学而时习之,不亦说乎?”​

​
​
​

第三,为了进一步优化文字识别的精准度,命名实体识别技术会通过预测文字的实体标签,识别包括人名、地名、书籍、时间、官职五种类型的专有名词。​

​
​
​

除了搭建古籍数字化阅读平台,字节跳动还在助力古籍修复、古籍活化上进行了探索。2021年6月,字节跳动联合中国文物保护基金会成立古籍保护专项基金,与国家图书馆开展合作,预计1-2年内修复珍贵古籍100余册件,培养100名古籍修复人才。同时,我们还通过古籍纪录片、激励创作者以多元形式演绎古籍知识等,让古籍鲜活起来,吸引更多人喜爱和关注。​
​
文以载道,源远流长,古籍穿越历史的长河,带着古人的智慧向我们走来。我们期待与更多的古籍收藏机构、研究团队、爱好者等一起,助力古籍传承,让古籍真正活起来,传下去。​

​
​
​​​

更多动态查看更多

老去的100种模样

老去的100种模样

2022年04月07日

Code for Good,他们有话说

Code for Good,他们有话说

2022年04月07日

"识典古籍"上线,千万字符在这里跳动

"识典古籍"上线,千万字符在这里跳动

2022年04月07日