上篇文章说了,mysql有character_Set_client,character_set_collection,character_Set_result来编码解码字符集。字符集有ascii、iso8859、gb2312、gbk、utf-8等。字符集和比较级的介绍。
innoDB
Mysql关闭之后,重启数据还是会存在的,不是所有的存储引擎都会存在,innoDB可以,memory不可以,因为后者是存在缓存中。我们都知道内存处理速度比缓存慢,如果每次修改和查询都从内存中缓存,那么性能必定会受影响,于是mysql以页为单位(16kb),每次修改或者查询少都处理16kb的数据。
我们可以通过row_format来指定行格式(记录格式),可以指定compact、redundant、dynamic和compressed。
Compact分为两大类:记录额外信息和记录真实数据。
记录格外信息:
变长字段长度列表:varchar,text,blob等,存放的是长度,不是真实的值。
Null值列表:存放null值。
记录头部信息:有delete_mask标记是否被删除,record_type(0表示普通记录,1表示B+非叶子节点记录,2表示小记录,3表示大记录)等。
记录真实数据:
列1,列2......
除了我们存储的数据外,还有三个重要的隐藏列
row_id:当没有主键和建的时候会存在。
Roll_Pointer:每条都有。
Transaction_id:每条都有。
另外需要额外注意一下char,前面说过ascii是固定长度,gbk(1~2)utf-8(1~3)是变长字符集,当使用固定长度他是不会记录列长度到变长字段长度列表,当使用变长字符集的时候则会存入变长字段长度列表。
行溢出:
行溢出首先要知道他的阈值是多少,varchar大能存储65535,但其中需要一个字节存储是否有null,两个字节存储真实数据长度,所以实际创建ascii字符集表时,应该是65532个字节,如果指定not null,则可以创建65533个字节。 当创建表的字符集是gbk或者utf呢,因为他们是可变长字符集,这时候需要看他的长字符集是多少,所以gbk是65532/2个字节,utf-8mb3是65532/3个字节。
我们都知道mysql按页存储,一个页16kb(16384),而一个表可以存储65532个字节,这时候一个页就不够存储。Compact在真实数据的地方会有一部分存储真实数据,剩余部分存储指定页的页码,超出存储真实数据(756kb)的数据就属于溢出数据。
Mysql在5.0之前用的是redundant行格式,现在MYSQL5.7版本默认的是dynamic,他与compact基本相同,但是存储真实数据不太一样,他没有一部分存储真实数据,而是全部指向数据页页码,而compressed与dynamic不同的是,会采用压缩算法对页面进行压缩。
Index页(数据页)
他是16kb结构如下:file header、page header、infimum+supremum、user records、free space、page directory、file trailer。
其中user recoreds部分有我们存放的数据,结构如下:
Delete_mask:0代表未删除,1代表删除。为什么删除的不从磁盘移除的,因为考虑到重新排序等问题,所以会吧未删除的数据一起组成垃圾链表,又称为可重用空间,新的数据,有几率会覆盖这个垃圾链表。
Heap_no:这里只会从2开始,0和1在infimum和supremum,也就是他们在位置靠前的地方。
Record_type:0代表普通数据,1代表b+数非叶子节点,2代表小,3代表大记录。
Next_Records:这个就是组成 数据查询的地址偏移量,从小的慢慢指到大的。
Page directory是什么呢,顾名思义,页的目录,mysql查询数据的时候总不能一条一条遍历查找,他会把数据分成很多组,每个组都有一个槽点,再根据每个组的槽点来进行二分查找。
Pege header:记录了有多个槽点,后插入数据位置,已删除数据占用字节等。主要记录数据页里面的信息。
File header:页的效验和,页号,上一页,下一页,log sequence number。
File trailer:会与头部页的效验和相对应,当数据同步到内存成功后,会同步到尾部,如果二者不一致,则表示同步中间出错,可能系统断电宕机原因。