好好的系统,为什么要分库分表?

说在前边

今天是《分库分表 ShardingSphere 原理与实战》系列的开篇文章,之前写过几篇关于分库分表的文章反响都还不错,到现在后台不断的有人留言、咨询分库分表的问题。

我也没想到大家对于分库分表的话题会这么感兴趣,可能很多人的工作内容业务量较小很难接触到这方面的技能。这个系列在我脑子里筹划了挺久的,奈何手说啥也不干活,就一直拖到了现在。

其实网上关于分库分表相关的文章很多,但我还是坚持出这个系列,主要是自己学习研究,顺便给分享,对于一个知识,不同的人从不同的角度理解的不尽相同。

网上的资料看似很多,不过值得学有价值的得仔细挑,很多时候在筛选甄别的过程中,逐渐的磨灭了本就不高的学习热情。搬运抄袭雷同的东西太多,而且知识点又都比较零碎,很少有细致的原理实战案例。对新手来说妥妥的从入门到放弃,即便有成体系的基本上几篇后就断更了(希望我不会吧!)。

我不太喜欢堆砌名词概念,熟悉我的朋友不难发现,我的文章从来都是讲完原理紧跟着来一波实战操作。学习技术原理必须配合实操巩固一下,不然三天半不到忘得干干净净,纯纯的经验之谈。

ShardingSphere知识点梳理

上图是我初步罗列的ShardingSphere提纲,在官网文档基础上补充了很多基础知识,这个系列会用几十篇文章,详细的梳理分库分表基础理论,手把手的实战ShardingSphere 5.X框架的功能和解读源码,以及开发中容易踩坑的点,每篇附带代码案例demo,旨在让新手也能看的懂,后续系列完结全部内容会整理成PDF分享给大家,期待一下吧!

话不多说,咱们这就进入正题~

不急于上手实战ShardingSphere框架,先来复习下分库分表的基础概念,技术名词大多晦涩难懂,不要死记硬背理解重要,当你捅破那层窗户纸,发现其实它也就那么回事。

什么是分库分表

分库分表是在海量数据下,由于单库、表数据量过大,导致数据库性能持续下降的问题,演变出的技术方案。

分库分表是由分库分表这两个独立概念组成的,只不过通常分库与分表的操作会同时进行,以至于我们习惯性的将它们合在一起叫做分库分表。

通过一定的规则,将原本数据量大的数据库拆分成多个单独的数据库,将原本数据量大的表拆分成若干个数据表,使得单一的库、表性能达到优的效果(响应速度快),以此提升整体数据库性能。

为什么分库分表

单机数据库的存储能力、连接数是有限的,它自身就很容易会成为系统的瓶颈。当单表数据量在百万以里时,我们还可以通过添加从库、优化索引提升性能。

一旦数据量朝着千万以上趋势增长,再怎么优化数据库,很多操作性能仍下降严重。为了减少数据库的负担,提升数据库响应速度,缩短查询时间,这时候就需要进行分库分表。

为什么需要分库?

容量

我们给数据库实例分配的磁盘容量是固定的,数据量持续的大幅增长,用不了多久单机的容量就会承载不了这么多数据,解决办法简单粗暴,加容量!

连接数

单机的容量可以随意扩展,但数据库的连接数却是有限的,在高并发场景下多个业务同时对一个数据库操作,很容易将连接数耗尽导致too many connections报错,导致后续数据库无法正常访问。

可以通过max_connections查看MySQL大连接数。

show variables like '%max_connections%'