做WEB开发的人都知道,页面的编码问题是必需考虑的。今天来总结下我们常用的几种编码,以及这些编码的用户和区别:
1。在我们国内,也就是在大陆最常用的是GBK和GB2312,他俩的关系是这样的:
最早制定的汉字编码是GB2312,包括6763个汉字和682个其它符号;95年重新修订了编码,命名GBK1.0,共收录了21886个符号。之后又推出了GBK18030编码,共收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,现在WINDOWS平台必需要支持GBK18030编码。
我们在设计中常用的是GBK和GB2312,GBK所包含的字符大于GB2312。
2。对于台湾和港台地区,用的是繁体字,因此字符是BIG5;
3。对于国际编码,常用的是Unicode编码,Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS
4。UTF-8是UNICODE的一种变长字符编码,由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节,而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。
总结:对于大陆的网站来说,我们一般用GBK;而对于英文的或是网站内容是多语言的,那我们一般用utf-8。