由宁波市档案馆、北京汉王数字科技有限公司共同申报、承担建设的浙江省档案局科技立项项目——“基于超算平台的高性能OCR技术在档案数据化中的研究与实践”项目,在宁波市档案馆正式启动。

▲项目启动会现场

“基于超算平台的高性能OCR技术在档案数据化中的研究与实践”项目(以下称:本项目),是2023年宁波市档案馆联合北京汉王数字科技有限公司共同申报成功的浙江省档案局科技项目。本项目以宁波市档案馆丰富的馆藏档案资源为基础,借助宁波市人工智能超算中心全自主国产化算力资源,将宁波市档案馆多年来在人工智能应用、信息化建设工作中积累的实践经验与北京汉王数字科技有限公司在OCR识别和人工智能领域领先的技术相结合。旨在研究复杂图像文本检测、表格识别技术、基于深度学习的档案OCR工作流程;探讨超算平台加速卡推理方法及高性能加速方法、非超算推理环境下加速方法。

2013年以来,在国家档案局大力实施“存量数字化、增量电子化”的战略背景下,纸质档案数字化副本大量产生。截至2019年年底,全国各级综合档案馆馆藏档案数字化副本容量已达1407.8万GB。而随着档案事业的不断发展、相关技术的不断革新,档案利用需求不断开始从“电子图像”向“档案文本”、“档案知识”转移。为规范相关工作的开展,国家档案局因势利导,于2019年12月发布《纸质档案数字复制件光学字符识别(OCR)工作规范》,规定了纸质档案数字复制件OCR工作的组织、实施和管理要求,确定了开展档案OCR工作的总体原则、工作流程、质量规定等。

OCR(Optical Character Recognition,光学字符识别)其原理是通过专门的OCR技术,将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码,并按通用格式输出保存在文本文件中。

另外,在档案OCR识别中,需要用到图形处理器(Graphic Processing Unit,GPU)资源。而当动辄上千万页的档案数据需要做OCR识别时,所需要的大量GPU算力资源就成了各级档案馆的难题。同时主流显卡的显示芯片主要由NVIDIA(英伟达)和AMD(超威半导体公司)两大厂商制造,2022年9月,美国对中国实施新的贸易限制,禁止英伟达和AMD向中国出售高性能计算机和人工智能技术。未来,运用基于国产技术建设而成的超算中心算力将成为主流选择。

汉王致力于OCR、NLP技术多年,技术力量行业领先。本项目将基于宁波超算中心全国产化算力,与华为昇腾技术团队进行技术对接。旨在研发一套基于全国产化高算力环境下的深度学习高精度OCR数据化系统。研究超算平台资源调度方法、国产化平台推理技术适配以及识别软件开发包适配开发,实现全栈国产化的同时对深度学习OCR硬件赋能,实现档案数据结构化提速。实现智能算法与档案业务工作的深度融合,降低数据资源采集成本,提升档案数据资源数据化效率。

▲汉王数字首席数据官聂昱发言

会议中,汉王数字首席数据官聂昱指出:“本课题研究内容,既有助于充分发挥超算平台算力的价值,也有助于帮助档案馆解决在业务工作开展中遇到对海量数据进行复杂处理的实际问题。同时,在课题研究内容中,一方面,研究与实证OCR算法模型与包括国产化硬件在内的底层硬件的适配,另一方面,也研究与探索,在此过程中跨域数据的传输、管理与保护机制。通过这些研究,在未来也可以给兄弟单位和部门,类似应用提供宝贵的经验与示范。另外,在数字档案馆向智慧档案馆的提升过程中,越来越多的AI能力会被引入用于挖掘档案的数据价值,扩展与提升应用和服务能力。目前,汉王数字与各档案馆在数据化识别、数据挖掘、数据治理、数据质检、开放审核、专题知识库,智慧编研等各方面都有相关合作和探索。所有这些相关工作中,基于OCR进行数据化工作,只是其中最上游的工作。后续还有相当多的工作一样需要强大的算力作为支撑。因此,在本课题中,针对OCR技术进行相关的研究,可以为后续更广阔的算力应用与AI能力开发提供先行探索的经验。”

档案OCR识别数据化业务,作为档案数据利用的基础工作,我们一直坚持最高标准、提前准备。早在2020年,汉王数字承建的数据化识别项目中,我们就坚持为客户提供除TXT、双层PDF格式之外能够保留更多版式信息的JSON格式数据,提前为客户数据利用做好准备。我们在2021年与杭州市档案馆联合申报成功并已通过验收的国家档案局科技项目“OCR+NLP技术在档案数据化中的研究与实践”中,就研究提出当档案数据在NLP技术下利用时,要求前期OCR识别输出有一定的数据规范,为数据利用提前布局。

汉王数字作为本次课题的联合申报方之一,十分感谢各单位对我们的支持。在本课题的研究与实施过程中,我们一定会积极探索,扎实落地,全力以赴,一定圆满完成本课题的研究与实践。

同时,值得一提的是,这已经是汉王承担建设的第五个省档案局或国家档案局科技项目啦,汉王在档案行业承担的其他科技课题项目分别为:

1、OCR+NLP技术在档案数据化中的研究与实践——杭州市档案馆&北京汉王数字科技有限公司(2021年国家课题)

2、基于深度学习技术的民国档案 OCR 识别引擎研究——湖北省档案馆&北京汉王数字科技有限公司(2023年国家课题)

3、基于跨门类民生档案的多模态弹性关联知识网络建设及智慧化利用研究----以五类民生档案为例——绍兴市档案馆&北京汉王数字科技有限公司(2023年国家课题)

4、基于自然语言处理技术的革命历史档案资源库构建与应用——宁波市档案馆&北京汉王数字科技有限公司(2023年省课题)

“让机器更懂你”是为汉王人不懈追求的使命,在解决档案行业的重难点问题上,汉王将不辱使命、不断求索!

中国智能交互技术与产品服务提供商 让机器更懂你

(汉王科技)