关于字符集标准GB2312,GBK和GB18030
本文最后更新于 150 天前。

定义与规范

GB2312

GB/T 2312,GB/T 2312–80 或 GB/T 2312–1980 是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》,通常简称GB(“国标”汉语拼音首字母),又称GB0,由中国国家标准总局于1980年发布,1981年5月1日实施。GB/T 2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB/T 2312。

GBK

又作 汉字内码扩展规范。全名为《汉字内码扩展规范(GBK)》1.0版,由中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司和电子工业部科技与质量监督司1995年12月15日联合以《技术标函[1995]229号》文件的形式公布。 GBK共收录21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。

GB18030

GB 18030,全称《信息技术 中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集。其对GB 2312-1980完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB 13000)的所有码位。GB 18030共收录汉字70,244个。

GB 18030主要有以下特点:
采用变长多字节编码,每个字可以由1个、2个或4个字节组成。
编码空间庞大,最多可定义161万个字符。
完全支持Unicode,无需动用造字区即可支持中国国内少数民族文字、中日韩和繁体汉字以及emoji等字符。
GB 18030在微软视窗系统中的代码页为54936。

收录范围

Q 09. Pro-6(N)、Pro-5(N)、Std(N)、GB18030、GBK、GB2312-80、GB12345-90、BIG5 是什么?
这些都是字符集标准,用于规定字体中应包含哪些字符。Pro-6(N)、Pro-5(N)、Std(N) 是日文标准,GB18030、GBK、GB2312-80、GB12345-90 是简体中文标准,其中 GB12345-90 是输简得繁,BIG5 是繁体中文标准。在包含的字符数量上 Pro-6(N) > Pro-5(N) > Std(N),GB18030 > GBK > GB2312-80。一般认为 GB18030 和 GBK 同时包含了足够多的简体字符和繁体字符,是可以简繁通用的。

GB2312

GB/T 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个字符。

对“不规范简化字”和繁体字的收录

收了两个不合乎中华人民共和国标准的简化字:
渖(68–41):由“审[審]”类推简化而来,但《简化字总表》已将“瀋”简化归并为“沈”。旧版《新华字典》收有此字,释为“汁”;新版取消,并入“沈”。
镟(79–64):由“钅[釒]”类推简化而来,但《简化字总表》已将“鏇”简化归并为“旋”。

收了三个繁体字:
鍾(79–81):原版收入使用繁体偏旁之“鍾”字,但《简化字总表》已将“鍾”和“鐘”简化归并为“钟”;后续的字模附录将之修正为“锺”[注 2]。
後(65–65):该繁体字已经在《简化字总表》简化归并成“后”(26–83)字,而且没有说明在语义不清时用“後”来表示,可是GB/T 2312却多收此字。
麴(84–80):原版收入使用繁体偏旁之“麴”字,但《简化字总表》规范“麥”字应当简化为“麦”;对应的简化字“麹”是由日本的简化汉字“麹”提交上 Unicode。2013年《通用规范汉字表》收录“麹”(2013:7748)。

GBK

GBK向下完全兼容GB2312-80编码。支持GB2312-80编码不支持的部分中文姓,中文繁体,日文假名,还包括希腊字母以及俄语字母等字母。不过这种编码不支持韩国字,也是其在实际使用中与unicode编码相比欠缺的部分。
GBK共收录21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。
由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。

CJK

中日韩越统一表意文字(CJKV Unified Ideographs),目的是要把分别来自中文、日文、韩文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字)于ISO 10646及Unicode标准内赋予相同编码。越南文后来亦加入此计划,所以亦有“CJKV”的称呼。Unicode亦开始收录其仿汉字-喃字。

image.png

Source: 常用超大字符集字体

判断

工具:CJK-character-count

测试简体汉字燈臺灣颱風 犇、猋、骉、麤、珺、璟、弢 桜さくら 櫻 樱 𫫇噁
标题:关于字符集标准GB2312,GBK和GB18030
作者:IKK
除转载和特殊声明外,所有文章采用 CC BY-NC-SA 4.0协议
上一篇
下一篇