当前位置:首页 > 科研成果 > 成果展示
河北省标准化研究院首创标准文献题录数据自动加工系统

录标准更快了 查标准更准了 

    □ 王红梅 本报记者 王 越 

    “标准文献题录数据自动抽取技术,我们是全国首创。”河北省标准化研究院(以下简称河北省标准院)文献中心主任施建介绍,通过“标准文献题录数据自动加工系统”,平均加工速度是人工的6倍,加工字段由原来的27项增至57项,满足了读者快速检索定位和准确辨析所需文献的需求。 

    经济社会的方方面面都与标准相关。但与此同时,我国的标准文献利用率却还不足20%,“开启以标准内容信息服务为主的新模式,深入挖掘标准服务政府管理和经济社会发展的广阔‘蓝海’,就是我们的努力方向之一。”河北省标准院院长苏永谦说。 

    加工自动化 

    2014年以来,河北省标准院自筹资金先后投入数百万元,开发标准文献题录数据自动加工系统,实现加工效率大幅提升。 

    在该院文献中心,工作人员登录标准题录数据自动加工系统,在“任务单管理”页面,各项标准文献的加工状态实时显现:待处理13项,进行中23项,已完成5项。进入题录数据加工页面,系统自动从经过文字识别处理的标准原文中抽取题录数据,自动输入到著录页面,部分字段内容可自动判断赋值。在自动抽取数据的同时,系统实时对数据进行自动校验,一旦出现错误字段,将标示为红框,提示工作人员修改、审核;工作人员可手工选取标准内容信息,点击字段标签,由系统自动抽取输入。

     在项目验收阶段,标准文献中心做过一次题录数据自动加工和人工加工对比试验,结果显示,两种方式完成时间相差最少的为5分钟,最多的为52分钟,借助自动加工,平均速度提高了6倍。 

    服务个性化

     在提高加工效率的基础上,河北省标准院文献中心在原有的标准号、名称、发布日期等27个标准题录加工字段的基础上,新增标准部分序号、发布单位、归口单位等30个字段,为读者准确搜索到所需文献提供了更多方便。 

    施建介绍,“题录”是指文献题名、作者、文献来源等基本信息,读者通过题录搜索相应文献,题录字段越多,查到文献的线索就越多,读者辨识性就越强,为读者提供的文献信息量也就越详细。

     进入河北省标准院“标准图书馆”网站,将同一标准的检索结果与其他标准信息服务网进行比较可以发现,其他网站或仅提供标准号、中文名称等不足10个题录字段,或列出了某些字段却不能提供链接;该网站则提供了附录、提出单位、起草人、检验机构等大量差异化字段,并提供详情链接。 

    例如,在标准GB 7718-2011显示页面点击“被如下标准引用”,不仅可显示引用该标准的15项标准,还可显示每项标准详情,为读者提供的不仅是GB7718-2011的相关信息,而是一个围绕该标准的庞大数据群。

     “这项技术大幅提高了文献服务个性化水平,”施建介绍,长期以来,全国标准文献服务基本围绕标准文本传递开展工作,服务内容、服务手段、加工技术同质化严重,或停留在销售标准文本阶段,或仅能提供极为有限的信息服务。“我们的目标是以‘信息化—数字化—结构化—自动化—智能化’为发展方向,以互联网为平台、以搜索引擎为手段构建标准文献服务平台,为读者提供差异化、个性化服务,满足现代社会对标准文献的多样化需求。”

     下一步,河北省标准院将利用大数据技术,逐步实现标准内容数据展示加工、标准编写、标准分析比对等方面的智能化,推动标准文献服务走向更深、更广的崭新“蓝海”。《中国质量报》


分享到微信 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。