在html中 常用的字符集编码方式有,简述字符集与编码
由于计算机内部只能识别和处理二进制代码,所以字符都必须按照一定的规则用一组二进制编码来表示。
在学习编码之前,需要先了解一下 字符集与编码的关系:
字符集(Character Set)是字符的集合,定义系统能处理哪些字符;编码(Encoding)则规定这些字符在计算机内部的表示方式。
字符编码ASCII码(编码字符集)
目前,国际上普遍采用的一种字符系统是7位二进制编码的ASCII码,它可表示10个十进制数码、52 个英文大写字母和小写字母(A~Z, a~z)及一定数量的专用符号(如$、%、+、=等),共128个字符。为了存入计算机,通常最高位补0,凑足1B。
在ASCII码中,编码值0~31为控制字符,用于通信控制或设备的功能控制;编码值32~126共95个字符称为可印刷字符;编码值127是DEL码。0~9的ASCII码值为48(0110000)~57(0111001),即去掉高3位,只保留低4位,正好是二进制形式的0-9。
由于ASCII码的局限性,各国的语言不能完整地表示出来。于是对 ASCII 字符集做了拓展。
汉字的表示和编码
目前采用 GB 2312-80标准 : 汉字+各种符号共7445个。用两个字节表示一个汉字,每字节用七位码。(1个汉字相当于两个英文字符)
规定:ASCII 值小于 127 的字符的意义与原来 ASCII 集中的字符相同,但当两个 ASCII 值大于 127 的字符连在一起时,就表示一个简体中文的汉字。
为了在解码时操作的统一,在 ASCII 里本来就有的数字、标点、字母都统一重新表示为了两个字节长的编码,这就是常说的 “全角” 字符,而原来在 127 号以下的就叫 “半角” 字符。
汉字编码包括:输入编码区位码
国标码
汉字内码
汉字字形码
区位码:94个区,每区94个位置。是4位十进制数,前2位是区码,后2位是位码。
国标码:将十进制的区位码转换成十六进制数后,再在每字节上加上20H。国标码两字节的最高位都是0。
汉字内码:为了方便计算机区分中文字符和英文字符,将国标码两字节最高位都改为“1“,这就是汉字内码。
GBK
GBK 是对 GB2312 的一个扩展,兼容 GB2312,因此也兼容 ASCII,也是一个变长编码方案。下面是一个简介:GBK 总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
