2023年4月,一条“奇葩”热搜吸引了许多网友的目光——#因姓氏太罕见全村集体改姓鸭#。云南省永胜县的“nia”姓引起一片惊叹:“原来还有这个读音的字?”“好神奇,好浪漫的姓氏”。
这个姓氏代表了傈僳族的氏族文化传统,却因太过生僻给使用者带来种种不便,改为“鸭”实为无奈之举。这样的事也绝非孤例:“(龙天)”“𬱖(由页)”“韡(韦华)”“𬍛(王乐)”……这些不算常见的字,或是家族的姓氏传承,或表达了父母的美好祝愿。它们的使用者,却因生僻字不被信息系统接受,而在信息世界中“寸步难行”。
名字里的问号——现实的困扰
姓氏、名字有个生僻字,生活中会遇到多少麻烦?
“我中考高考的准考证都打不出第三个字,我的所有证书、证件和档案,名字第三个字都是缺失的。学籍系统打不出我的全名,我孩子的学籍信息上,母亲姓名一栏有代替的符号。”
“我以前的银行卡都是用拼音跟各种符号办理的。有一年办理退税需要实名银行卡,办理实名银行卡又需要实名手机卡,在几家公司都办不了实名手机卡,死循环了。”
“各大医院网络挂号系统用的字库不同,有些医院可以认证通过,有些不行,最后只能去窗口挂号。还会因实名认证不通过做不了检查。”
在一个 “姓名生僻字交流群”里,群友们打开了话匣子,迫不及待地倾诉着。
一位名字里带“𬸣”的群友讲述了她与名字生僻字的“恩怨纠葛”。家人从李白《秋夜于安府送孟赞府兄还都序》“鸿𬸣凤立,不循常流”中选了这个字为她取名,期望她追求卓越,如鸟一般展翅高飞。
随之而来的烦恼却数不胜数:公司发放工资的系统不识别这个字,发不出工资;微信经常触发“需要上传身份证件”,因身份证姓名无法识别,又需要反复人工认证。公积金问题则是最麻烦的,“我曾在3家公司就职,每个公司在上报公积金时留了不同的名字写法,所以存在多个公积金账户。我联系了好几位HR,无数次联系公积金办事处柜台,终于合并到了一个账户。目前能存入了,但还不确定能否取出。”
当实名认证、网上办事为人们提供更多便利,“名字无法输入、识别和显示”却成为拦路虎。生僻字使用者无法享受到信息化带来的好处,反而在生活中被处处掣肘:有时他们花费更长时间,走“人工通道”解决问题,有时则被彻底断绝了使用某些服务的可能。
生僻字——有解的难题
2022年8月,国家发布了强制性国家标准《信息技术 中文编码字符集》(GB18030-2022),并已经于今年8月正式开始实施。该标准收录了88115个汉字,覆盖我国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字。落实这项强制性国家标准,能够解决目前最急切的生僻字问题。
GB18030-2022是一项汉字编码标准,比前一版本新增了1.7万个汉字,它为每个汉字确定了唯一的编码,算是为它们“上了户口”。
中国科学院软件研究所时空数据管理与数据科学研究中心高级工程师刘汇丹介绍说,汉字信息化的原理大致为:用户在输入法选中汉字,操作系统根据汉字编码在字库中找到它的字形,在显示屏上“画”出来。此前无法正常使用的生僻字,可能是因为在当时的编码系统中没有容身之所,无法输入、存储和输出。
北京北大方正电子有限公司是参与起草GB18030-2022的单位之一。据方正字库总经理张建国介绍,通过《通用规范汉字表》补充的汉字,一部分就是为了解决人名生僻字问题。“‘𬱖’,有美好的意思,有的家长会给孩子起这个名字,还有女孩子起得比较多的‘𬎆’,还有‘𮧵’,这些字在新的2022版标准里都扩充进来了。”
关于批准发布《信息技术 中文编码字符集》等2项强制性国家标准的公告,图源:全国标准信息公共服务平台
GB18030-2022是一项强制性国家标准。根据《中华人民共和国标准化法》有关规定,强制性标准必须执行;我国境内生产、销售、进口、提供的所有具备中文信息处理和交换功能的技术类产品,均应符合标准的要求。
标准中还写明“用于政务服务和公共服务的产品应满足实现级别3的要求”,即相关行业产品须支持文件规定的全部汉字。依规落实标准要求,能够针对性地解决姓名生僻字人群办事难题,让技术成果真正惠及人民群众。
积弊沉疴——复杂的现状
问题理应解决了,但现实并非如此。
刘汇丹长期关注生僻字问题,他是“姓名生僻字处理平台”的发起者,也是“姓名生僻字交流群”群主,目前两个大群里共有六七百人。
第一次了解到生僻字群体的困难时,刘汇丹十分诧异:“技术上,我们做了很多年汉字和少数民族语言信息处理的工作,没有想到还有因为生僻字在日常生活遇到困难的人。”
这反映了真切的现状:问题的难点不在技术本身,而在应用与推广。在交流群的老成员文辰看来,解决问题的核心是身份证和人口信息管理系统。当这二者与其他服务系统都采用强制性国家标准汉字编码,才能实现生僻字在不同领域的互联互通。
新标准发布之前,人名中的生僻字以不规范的编码形式储存在系统中,即“PUA编码”。过去使用PUA编码字,是存储生僻字的一时之策;它不同于国家强制性标准规定的汉字编码系统,无法用现在的输入法打出,会在新系统显示为空格、星号或问号。
早该退出历史舞台的PUA编码字,却仍广泛存在。若不专门在派出所进行更名手续,并更换身份证,就无法将PUA编码字修改为新标准的正式编码。实名认证时打出的正式编码字,自然也无法与PUA编码字“核验一致”。
“有时我们知道PUA码的问题,想主动去换证,依然换不了”,文辰介绍了交流群中一些成员的经历。有时基层派出所没有升级到符合国家标准的字库,正式编码字在基层窗口无法显示。有时问题出现在上一级制证中心,“字库没升级,正式码的数据在制证中心那儿显示不出来,总不能制证时写个框框。所以有‘好心人’又手动给它改成PUA编码,把身份证给制出来。”说到这里,他忍不住无奈地笑出声。
其他服务系统也存在编码不规范的情况。以“全国专业技术人员资格考试报名服务平台”网站为例:注册页面与考试信息填报系统,在“考生姓名”一栏设置了“生僻字输入”按钮。这展现了对生僻字使用者的关怀,表现出较强的服务意识。但网站生成的生僻字却暗含玄机。
全国专业技术人员资格考试报名服务平台的生僻字输入界面
将平台上通过“生僻字输入”生成的“”复制到电脑文档中,显示为空白;通过快捷键转换“空格”的编码,也与正式编码不一致。它所生成的考试信息、证件信息是否能与使用正式码的实名系统“互认”?尚不得而知。
还有许多服务系统采用的仍是1995年的“GBK”编码,仅包含21003个汉字,早已不能满足当下的需求。有的系统用各种PUA编码“缝缝补补”,在表面上满足生僻字使用者的需求。实际上,相同字形背后,不同的汉字编码无法互认,必然导致核验失败。
现实生活中,“GBK+PUA”的编码组合已经应用得太久、太广,根除不合标文字编码的“后遗症”,还有很长的路要走。
汉字编码规范化——共同的期待
交流群成员们在实际体验中产生了共识:金融行业是目前对生僻字问题处理最好的行业。
早在2022年6月22日,中国人民银行便发布了《金融服务 生僻字处理指南》。按照指南要求,生僻字的输入支持范围能够满足目前对人名、地名生僻字的使用需求,并尤其重视对PUA编码汉字的处理。
有知情人士透露:“招商银行、中信银行、中国工商银行已基本改好了,有的银行还在进行中。之前有银行因为生僻字支持问题收到中国人民银行科技司发的整改函,整改进度很快。”
交流群中有几位不同银行的技术人员,会帮忙解决具体问题。“即使顶层设计做好了,末梢也可能传导不到。总行到基层是遥远的过程,银行的老师在群里帮忙,是把它扁平化,直接触达一线用户,”文辰说。当核心系统更新完毕,基层的服务窗口只需现场下载升级,此前的困难便迎刃而解。
自强制性国家标准GB18030-2022发布以来,不少公司企业积极响应,根据要求做相应升级。
根据全国信标委字符集与编码分委会发布的《信息技术生僻字处理指南》,目前提供生僻字商业字库的厂商包括中国电子技术标准化研究院、方正电子、汉仪、卓玛之裕等。支持生僻字的输入法包括腾讯搜狗输入法、卓码输入法、方正超大字库输入法、百度输入法等。
北京北大方正电子有限公司将28款字形做了升级,而“方正人口信息字库软件及其输入法软件”则依规升级到包含标准内所有汉字。
张建国介绍,“方正一直在跟踪解决生僻字问题,我们一直参与国家标准的制定工作,所以标准一升级,我们就会尽快去做方案的升级改造。”
他也关注到了金融行业在生僻字处理方面的成果,这让他看到了问题的出路:“我们比较乐观。只要大家重视这个事情,特别是管理部门,如果像人民银行这样发文去要求,推进的速度就会加快。”
刘汇丹则跟进了生僻字问题的最新情况。作为GB18030-2022第1号修改单工作组成员,他介绍道,国际标准中新增的汉字,与“公安人口信息专用字库补充汉字”都会作为修改单的一部分,被补充到强制性国家标准中。
在克服生僻字困难的道路上,不同身份、不同行业的人们都在尽自己的一份力。
对于文辰等生僻字使用者来说,最大的诉求是“信息无障碍”。当生僻字问题得到系统性解决,他们可以毫无阻碍地用自己的名字办理各种事务,无需担心自己被某项服务拒之门外,也无需花费额外的时间、精力“特事特办”。
对于刘汇丹、张建国等行业从业者来说,解决生僻字问题还包含一种特殊的责任。汉字是中华文化的重要载体,对汉字的规范收录也意味着对中华传统文化的“寻回”。随着汉字信息化水平提升,中华古籍中的文字内容,地名、人名中保留的历史信息,都能得到更好的传承和保护。