
文章插图
大家好,这一期呢,我们来说一下,数据库表和索引的分区 。讲解这个问题,对于不同的数据库可能有一些技术细节上的不同,因此我们以某个数据库比如sql server为例来探讨这个问题 。
分区后的数据和索引分散到多个文件组里面,因此可以说这些数据是平行并列分布的,每组中的行都对应特定的那个分区 。这些索引和表的分区都必须存在一个数据库里面 。因此,在外部程序看来,不管内部有多少个分区,在外面看来就是一个数据表或者索引 。
那么表或者索引的分区有什么好处呢?好处主要是两个方面,一个是管理起来比较容易,另一个方面是性能上更好一些 。
相较于访问整表而言,访问某个分区的数据当然更快更有效率 。
我们设想一下有这么一个案例,有一个表它有多个分区,这些分区对应的都是不同的文件组,而这些文件组呢又会分散到不同的硬盘上 。
如果我们在排序的时候,一个硬盘一个硬盘的去访问的话,性能上就会很低 。
要改善性能的话,我们可以使用RAID对分散到多个硬盘上的数据文件,同时进行访问 。
再来说一下数据加锁的情况 。在有多个分区的情况下,我们只需要对某个分区进行加锁,而不需要对整张表进行加锁,这样也可以提高操作的效率 。这要在创建表的时候,修改表的属性,把lock_escalation这个选项设置为Auto 。
下面是数据分区的几个重要概念 。
首先是分区函数 。分区函数用来定义如何进行分区 。首先它定义了我们需要分多少个区 。这些区的边界在哪里 。打个比方说, 一张用户表中包含了用户的注册时间,注册地域等等信息 。那我们可以以时间为参考创建分区 。可以以月为单位或者以年为单位进行分区,这主要取决于你到底有多大的数据量 。在这种情况下,时间,也就是某个月的起始与终止,或者某个年的起始与终止,作为数据边界的参考 。
其次是分区列 。分区列会被上面的分区函数拿来用作进行表和索引的分区 。这个列必须被明确的标注为persisted 。 理论上讲所有可以用作索引定义的列都可以当做分区列 。
再次就是对应的索引 。索引和原始表的分区函数,必须满足如下条件, 分区函数的参数必须具有相同的数据类型,他们必须具有相同数量的分区,他们必须具有相同的数据边界 。
通俗的讲,数据进行了分区,索引的分区必须跟数据的分区进行对应,这样才可以提高效率 。
对簇索引进行分区 。当簇索引的键值并非唯一的时候,簇索引的键值并不需要指定包含分区列,在这种情况下,sql server 会缺省的把分区列添加到簇索引的键值中 。如果簇索引的键值是唯一的,你必须显性的指定簇索引的键值包含分区列 。
【数据库表分区是怎么回事?】对非簇索引进行分区 。当对于一个键值唯一的非簇索引进行分区时,索引键值必须包含分区列 。当索引值不唯一时,数据库会缺省的让索引键值包含分区列 。
接下来说一下非对应索引的情况 。这种索引主要是独立于相关的数据表之外 。主要是两种情况,一是这种索引有独立的分区定义,二是这种索引被放置在一个单独的文件组中 。这种索引在如下情况下非常有用:
. 数据源表没有分区,
. 索引键是唯一的,并且不包含分区列
. 你会在数据源表上进行非常复杂的多表联合操作 。
在性能的考量上 。并不是说分区越多,性能就越好 。这些分区都会影响到内存的消耗,CPU的繁忙程度 。所以你在使用分区的时候,要找到你的平衡点 。
具体的参数参考可以查找对应数据库的开发文档 。
以上是我对这个话题一点心得看法 。仅供参考,欢迎讨论, 欢迎拍砖 。
推荐阅读
- Mysql某个表有近千万数据,CRUD比较慢,如何优化?
- php读取数据库数据,并以json格式返回数据
- 分享Oracle数据库8个实用的查看 Shared Pool 相关脚本
- 世界第一贵的手表 全球最贵的手表1.3亿
- 违章扣分罚款一览表,方便查看,建议收藏
- 茶汤表面有泡沫是怎么回事 茶皂素惹的祸
- 外链建设时易犯的错误一览表
- mysql数据库中,数据量很大的表,有什么优化方案么?
- Innodb IO优化-配置优化
- 一次 MySQL 千万级大表的优化过程
