我们处在一个开放多元、包容互鉴的时代,开放是档案工作发展的新方向。2021年1月1日,新修订《中华人民共和国档案法》(后文均简称“新《档案法》”)的正式施行是我国档案法治建设进程中一个新的里程碑,检索新《档案法》全文,“开放”二字多达14处,为推动我为档案开放法治建设进程提供了遵循。2022年7月,国家档案局公布的《国家档案馆档案开放办法》进一步加大了档案开放的力度。中办国办印发《“十四五”全国档案事业发展规划》也明确提到要实现档案开放审核工作法治化、规范化、常态化。
什么是档案开放审核
“档案开放审核”是对档案进行审核,决定档案能否向社会开放的工作,是决定档案开放利用的重要关口。新《档案法》第三十条提出,馆藏档案的开放审核,由档案馆会同档案形成单位或者移交单位共同负责。尚未移交进馆档案的开放审核,由档案形成单位或者保管单位负责,并在移交时附具意见。
档案开放审核面临的痛点
目前档案开放审核存在权责不明确、开放意识不高等问题,但最为显著的问题依然是档案开放审核工作量大,与现有人力资源矛盾突出。
新《档案法》将档案开放期限由原来的30年缩短为25年。经济、教育、科技、文化等类档案可以少于25年向社会开放,涉及国家安全或者重大利益以及其他到期不宜开放的档案可以多于25年向社会开放。这导致各档案馆的开放审核工作量激增,特别在开放审核由“卷”转为“件”新要求实施后,工作人员需逐页逐句逐字查看,工作量增加了数十倍。以平谷区档案馆文书档案为例,按卷审核每年为1000余卷,按件审核每年约为30000件,工作量约增加30倍。
档案开放审核工作是一项“体力活”,需要大量专业工作人员参与。为解决严重的人手不足问题,部分档案馆也采用了机器+人工的半自动方式进行开放审核,通过对档案内容进行检索和关键词定位,将含有对应关键词的档案从待开放档案中区分出来后,再由人工进行复查,但是这种方式依旧需要耗费大量人工,而且还容易导致错判漏判问题,并不是目前档案开放审核的最佳方案。
应用人工智能技术进行辅助审核
关键技术——手写体识别
目前各档案馆的开放审核对象主要是25年之前的档案,这些档案中有大量字迹差距较大的手写体,OCR识别率不高,影响档案开放审核的进度。利用AI技术,对不同字迹进行分析与学习,并且构造语义通顺度模型,根据档案行业特点引入文本纠错机制,以此提升手写体OCR可识别率及准确率。
关键技术——NLP
自然语言处理(NLP,Natural Language Processing)是人工智能的一个重要分支,结合了计算机科学、人工智能和语言学的知识,旨在让计算机能够更好地与人类进行自然语言交流。在开放审核时,采用NLP技术可以使系统更好地理解档案文本内容,根据上下文对关键词进行语义分析,从而避免仅凭关键词产生的错判漏判问题。
关键技术——机器学习
机器学习(Machine Learning)是人工智能的一个子领域,它通过构建并训练算法模型来学习数据模式,进而实现对数据的预测、分类、聚类等任务。在人工复审后,系统将审核依据与结果转化为审核知识库,并自动转化为语义训练模型供AI持续学习,不断提升审核准确率。
在结合以往开放审核“初审员、复审员、终审员”流程,融入人工智能技术后,系统会自动调取待审核档案,根据配置的审核方案进行AI审核,并基于支持审核内容下钻与词库联动审核,最后,AI会给出是否开放的结论和延期开放的理由,同时给出审核结果的置信度。系统审核完成后,可以根据AI审核结果进行人工复审,AI将根据人工复审结果继续学习进步。