人口信息冷僻字解决方案

[概述]

    2003年国家信息化领导小组第一次会议决定,把电子政务建设作为今后一个时期我国信息化工作的重点,政府先行,带动国民经济和社会发展信息化。同时发布了《关于我国电子政务建设的指导意见》明确提出国家要组织编制政务信息资源建设专项,设计电子政务信息资源目录体系与交换体系;启动人口基础信息库、法人单位基础信息库、自然资源和空间地理基础信息库、宏观经济数据库的建设。

    人口基本信息库由公安部联合计划生育委员会、国家税务总局、劳动和社会保障部以及国家民政部等部委共同建造。该信息库的核心内容将包括我国13亿常住公民的姓名、性别、身份证号码、出生年月、出生地和民族等六项基本信息。更多的信息将在相关部委的协作下在基本信息的基础上作进一步的扩展。

    人口基本信息库也为正在普及的具有机读和计算机网络核查功能的第二代居民身份证建立了数据平台。由于使用的计算机系统多数采用GBK编码的字库,共收录汉字21003个,不能完全适应处理人名、地名的需要。以前,各地公安机关在制作居民身份证时,把遇到的姓名和住址的生僻字通过人口信息管理系统按照一定的编码规则进行造字,解决制证过程中的个人信息打印问题。由于第二代身份证采用了非接触式集成电路,需要对全国人名、地名中的生僻字进行整理、规范,建立统一生僻字库或扩充原有字库,才能实现全国范围内生僻字的存储、读取,因此需要对现有字库进行扩充并提供有效的补字系统。

    解决人口信息生僻字问题,需要对全国人名、地名中的生僻字进行收集整理、查重审定、建立统一生僻字库或扩充原有字库、编程实现。收集整理即收集整理全国人口信息中的生僻字。查重审定即各地使用的系统采用字库不同,缺字的状况也不同,上报的生僻字中,一部分汉字重复或在新的字库中已经收录,需要把这部分字删除。扩充字库、编程实现即将字库中尚不存在的生僻字加入字库,由于生僻字在目前计算机系统中没有收录,需要选择编码方案对这些字进行编码管理。

    另外,实际工作中会遇到新的生僻字,需要有高效实用的补字系统,能够尽快补字,并能保证字体的统一性。将生僻字加入了字库以后,还需要一种简便易用的输入法,让操作人员可以方便的输入这些汉字。

    正是在这样的情况下,北大方正公司受公安部的委托,发挥自身在中文字库开发方面的技术优势,将公安部从全国各地派出所收集上来的人名和地名生僻字进行整理、分析,根据人口信息系统建设的实际情况、二代身份证制证的要求和系统运行环境,制定了方正人口信息字库解决方案。该方案具有通用、易用和标准的特点,不仅在适合公安系统得到广泛使用,也必将为其它行业解决生僻字问题带来极大的帮助。

 

[人口信息用字方案及工作流程]

一、人口信息用字解决方案主要包括四个部分:
    1.  人口信息用字库
    2.  人口信息用字的输入法
    3.  自动安装和升级程序
    4.  补字服务

下面分别介绍:

1.  人口信息用字库
    字库由编码方式和字符集两部分来决定。
    在人口信息专用汉字字库“方正宋体-人口信息”的现有版本中,共收录汉字75124个,包括GBK21003个+CJK统一汉字扩充A 6582个+CJK统一汉字扩充B 42711个+GB13000用户自定义区4776个+兼容字符52个,涵盖了各地整理上报的全部地名用字、姓氏用字和使用频度较高的人名用字。
    该字库可以在Windows2000以上的系统上安装使用。

2.  配合人口信息用字的输入法
    人口信息用字符集需要有专门的输入方法才能正确输入。我们专门开发了新典码输入法解决这个问题。方正新典码输入法根据汉字的部首、笔画、笔顺、笔画数等特征作输入汉字的检索条件,采用交互式图形界面,通过不断选择目标汉字的特征组合,最终通过鼠标点击实现汉字输入。这种输入法以鼠标为输入工具,界面直观,对输入人口信息用字不需要记忆任何字根或编码,便于普通用户的学习和掌握。
    新典码输入法是为了解决人口信息用字输入问题而专门开发的,该输入法是其它输入方法的补充。用户在日常使用时还是使用原来用惯的输入法,只有在需要输入人口信息用字时才调用这一输入法。所以不会影响工作效率。

3.  自动安装和升级程序
    北大方正提供了自动安装和升级程序用于人口信息用字库及相应输入法的自动安装工作。自动安装程序可以在服务器端和用户端运行。此程序运行后会自动安装字库和输入法。日后升级时,此程序还可实现升级字库和输入法的更新安装。

4.  补字服务
    对于意外发生的补字需求,北大方正提供相应的补字服务工作。
    由使用单位向北大方正提出补字要求,同时提供原始字形。北大方正向使用单位提供字库的时间由双方协商决定。
    可采取实时提供方式(北大方正于收到补字要求后5个工作日内提供)。也可采取定期提供方式(周期为每月或每季度)。北大方正提供补字的同时提供输入法。

二、工作流程:

人口信息用字方案的实际工作流程如下图: