1.首先请求会被MySQL客户端编码为字节序列之后通过网络传输到服务器。
2.服务器收到字节序列请求之后,会认为该字节串是按照character_set_client系统变量编码的,之后将其从character_set_client转换到character_set_connection,再进行更深入的处理。
3.后将响应发送至客户端时,又会按照character_set_results进行编码。
4.客户端收到响应字节串之后,按照本客户端规定的字符集进行解码。
对于MySQL自带的客户端来说,这个解码过程使用的字符集和我们使用的操作系统的默认字符集是一样的,类Unix系统的默认字符集就是utf8,Windows系统的默认字符集就是gbk。
系统变量 |
描述 |
---|---|
MySQL客户端字符集 |
MySQL客户端字符集 |
character_set_client |
服务器解码请求时使用的字符集 (服务器认为请求是按照该系统变量指定的字符集进行编码的) |
character_set_connection | 服务器处理请求时会把请求字符串从character_set_client转为character_set_connection |
character_set_results | 服务器向客户端返回数据时使用的字符集 (服务器采用该系统变量指定的字符集对返回给客户端的字符串进行编码) |
从通信转码流程来看,要保证没有乱码出现:
character_set_client
、character_set_connection
和character_set_result
这三个系统变量应该和客户端的默认字符集相同即可。
SET names
命令可以一次性修改这三个系统变量。
操作系统的字符集编码:
数据库字符集:
1.客户端发送请求时会将字符'我'按照utf8进行编码,也就是:0xE68891。
2.服务器收到请求后发现有前缀_gbk,则不会将其后边的字节0xE68891进行从character_set_client到character_set_connection的转换,而是直接把0xE68891认为是某个字符串由gbk编码后得到的字节序列。
3.再把上述0xE68891从gbk转换为character_set_results,也就是utf8。0xE688在gbk中代表汉字'鎴',而0x91无法解码(我们可以看到上述查询结果中有1个warning)。
解决乱码问题,要从客户端到服务器通信流程中的字符集编码、转码、解码来分析是哪一步的问题。
一般情况下,保证:
character_set_client
character_set_results
character_set_connection
客户端的字符集编码
当其一致时就可解决乱码问题。
墨天轮原文链接:https://www.modb.pro/db/181389?sjhy(复制链接至浏览器或点击文末阅读原文查看)
陈家睿,云和恩墨MySQL技术顾问,拥有MySQL OCP、PGCE、OBCA、SCDP证书,长期服务于电信行业。现负责公司MySQL数据库、分布式数据库运维方面的技术工作;热衷于运维故障处理、备份恢复、升级迁移、性能优化的学习与分享。