面试必考题-数据库自增主键

无论是做PHP开发还是做JAVA开发甚至前端开发,只要是开发,面试的时候都必考数据库。为什么前端也要考数据库?因为数据库课程是计算机的基础课程,同样的基础课程还有操作系统,数据结构。只要写代码就永远跳不出这三门基础课。

面试官和面试者都知道要考数据库,都会去刷题,数据库的知识点其实很少,一天就能刷完。长久以往面试流程会变成背书流程,面试官题目没说完,答题者已经了然于心,这样根本选不出合适的CRUD boy。很多大厂意识到了这点,所以一直在改革,比如宇宙大厂字节跳动就需要手写算法(红黑树是必背题)。怎么改呢?可以参考高考,拿高考数学来说,每年考察的知识点都差不多,这就会导致考满分的人逐年递增(优秀的人和更优秀的人无法拉开差距)。和机器学习很像,样本量越大,考生越不需要靠「运气」做出「好」的结果。所以出题人要想办法考察答题人的解题思路。

面试谈到数据库肯定会谈到数据库引擎,不同索引的数据结构实现,SQL优化等。如果面试官直接问这几个问题,面试者肯定对答如流。因为网上的面试宝典早已把这些问题分析的入木三分,配上一些形象的例子,比读修仙小说还精彩。但优秀的面试官从不按套路出牌。

正常来说程序员是不会关心自增ID用完的,阿里的编程规范广为流传,里面严格要求自增ID为unsigned bigint,程序员和DBA都默认遵守这个规范。unsigned bigint到底有多大?The unsigned range is 0 to 18446744073709551615,想把这个值用完太难了。

那面试官到底想了解什么?

一. 自增ID用完了会报什么错?

具体报错信息是什么?面试官自己都不一定知道。不同的数据库底层实现不一样,不同版本也有差异。我测试不同版本的MySQL就有两个答案:

1
2
1. Duplicate entry '*****' for key 'PRIMARY'
2. SQL Error (167): Out of range value for column 'id'.

大家都知道会报错,但是没人能肯定具体报错信息是什么。可能是数据越界,也可能是主键冲突,那就没有了标准答案,最后看谁的知识储备更多。一般来说一面面试官的技术不一定比面试者强。

二. 自增ID为什么用不完?

第一个问题是为了引出第二个问题。因为自增主键通常会设置为unsigned bigint,最大值为18446744073709551615,假设我们的项目需要每秒记录100万条数据,这个自增ID使用100万年后都用不完。全球也没几家公司能达到这个量级。

如果面试官问200万年后不会用完吗?这是个好问题。

参照当前的数据库软件和服务器硬件来说,MySQL单机单表的处理能力是千万级别。意思是当单表数据达到1千万时,MySQL性能就会开始下降,需要着手优化,这里的瓶颈主要是查询耗时。我们可以通过分区再撑一段时间,当数据量到10亿时,基本到了MySQL的极限,不分表分库的话,业务难以持续。如果分表分库的话自增ID很难保证唯一性,这时候必须弃用自增ID,采用其他算法。最后从业务的角度来讲自增ID不可能用完,单表支撑不了那么大的数据量。

三. 自增ID如何优化

当单表数据量达到千万时,数据库的性能会开始下降。这时为了优化性能,同时保证数据有唯一ID,就是考察另一个知识点了,这里不展开讲,大家看下这篇文章。真假唯一数