1、首先要明确客户端是何种编码格式,这是最重要的。一般来说,IE使用的是utf8,命令行用GBK,程序用GB 2312
《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。
把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。
2、确保数据库使用的是UTF-8格式,这样很简单,所有编码通吃。
3、一定要保证connection的字符集大于client的字符集,不然就会丢失信息。
比如,Latin1<GB 2312<GBK<UTF-8,若设置character_set_client=GB 2312,那么至少connection的字符集要大于等于GB 2312,否则就会丢失信息。
4、以上三步都做对了的话,所有中文都会被正确的转换成UTF-8格式存储进数据库。为了适应不同的浏览器、不同的客户端,我们可以修改character_set_results,以不同的编码格式显示中文字体。由于UTF-8是大方向,所以web应用也是倾向于使用UTF-8格式显示中文。