一、汉字系统的基本知识
(一)汉字编码
1.输入码
目前,最成熟、最简便易行和实用的是键盘输入法。汉字输入码(外码)是指用户从键盘上键入汉字时所使用的汉字编码。为了便于使用英文字母来键入汉字,就必须使用字母数字串来代表汉字。常用的输入码有区位码、首尾码、拼音码、智能ABC、王码拼音、五笔字型码等。用户可以任意选择输入方法。输入的汉字码由键盘管理程序转换成机内码,以便处理、保存、显示、打印和传输等。
2.内码
内码(机内码)是计算机系统内部用来表示中、西文信息的代码,也称汉字存储码。汉字在计算机内存储时,一般用两个字节表示汉字内码。汉字内码主要用来对汉字进行存储、运算和编码,它通常是用其存放在汉字字库中的物理位置表示。可以用汉字字库中的序号或汉字在字库中的存储位置来表示。
3.交换码(国标码)
计算机与其他系统或设备之间交换汉字信息的标准编码称为汉字交换码,又称国标码。在汉字交换码中,每个汉字用两个字节表示。国标码两个字节的最高位都是“0”,而机内码两个字节的最高位都是“1”。由此可见,汉字国标码与机内码之间有一个对应的关系,只要将机内码的两个字节的高位“1”变为“0”,则是该汉字的国标码,反之亦然。
4.输出码
汉字输出码又称汉字字形码(或称汉字字模码)。汉字输出码的作用是输出汉字,对汉字字形经过点阵的数字化后形成的一串二进制数称为汉字输出码。
(二)汉字字形的数字化与汉字库
1.汉字字形的数字化
描述字符(包括汉字)字形的方法主要有两种:点阵字形和轮廓字形。一般来说,表现汉字时使用的点阵数越高,则汉字字形的质量就越好,当然,每个汉字点阵的存储容量也越大。
2.汉字库
在计算机内处理的是汉字的内码,而通过显示器、打印机输出的是汉字的字形,所以,必须事先把全部的汉字字形放在计算机内,并通过汉字处理系统的专门处理程序自动把要输出的文字内码转换成对应的汉字字形后才能输出。全部汉字字形的集合称为汉字字形库。目前,我国的汉字系统一般都是用国标GB2312—80规定的两级常用汉字建立汉字库。
(三)汉字的显示方式
(1)字符方式。在处理汉字时,直接用内码传送和处理的方式叫做字符方式。
(2)图形方式。在显示或打印汉字时,直接把汉字的字模点阵信息传送到输出设备的输出方式叫做图形方式。采用这种方式无需转换就可以在输出设备上直接输出汉字。