继续说 Memcached 的 Sharding

2009-07-13 10:10:43
作者：郑凯

曾经 [url=[archive=314]]写了一篇很啰嗦的文章[/url] 只为了说明求余这么大点事。我主要当时想的是数据库的分割，后来刘涛老拿我这方法的缺点说事，于是又想到用另外一种方法，跟这个差不多，但更适合动态增减 Memcached 的情况。

原来求余方法说的是，如果有大量的 key 存放在 n 台 server 上，应该是 crc32(key) % n，余几就放在第几台 server 上（当然，我说的是 0 起始）。额外还要说明一点 PHP 里的原始的 crc32 函数返回的是有符号 32 位整数，需要用 sprintf("%u" 来转成无符号的，范围在 0 到 2 ^ 32 - 1 = 4294967295 之间。

另一种方法也是用 crc32，不过不是求余而是除法，crc32(key) / 4294967295 会得到 0 - 1 之间的一个小数，在根据这个小数来决定放在哪台 server 上，假设你有 4 台 sever，那接收的 key 范围应该是以 1/4、2/4、3/4 分隔的 4 段，假设你要存储一个 key 叫“abcdef”，在 PHP 里 [incode]echo sprintf("%u", crc32("abcdef")) / 4294967295[/incode] 会得到一个小数 0.295138951227，在 1/4 和 2/4 之间，那应该放到第二台机器上。

[img][file=102][/img]

如果 server 数不变，这两种存法（后面简称求余法和小数法，这只是我起的土名，如果有人知道学名希望不惜赐教）几乎没有什么区别，问题就在于如果要新增几台机器的时候

一旦出现变化，求余法基本要完全乱套，比方说 7 台变成 9 台时候，余数根本没有规律可循，只有一种极特殊的情况（就像初中学的尺规做图只能给直角做三等分一样），就是变化后是变化前的倍数，而且最好是 2 倍，这时可以保证有 50% 的数据被保留，虽然还是很糟糕，但这已经是极限了。当然这仅仅是对于 Memcached 来说，如果是 MySQL 能停机十几分钟就好办了，停机后以最快速度（cp data 目录的方式）一对一复制出新增的一倍机器，启动 MySQL，这时候所有的 server 都有一半冗余数据，跑一个脚本删掉即可，因为总之那部分都不会被访问到，因此甚至可以在之后几天的空闲时间里慢慢删（如果举个具体的例子是这样，原有 2 台 server，分别装着余 0 和余 1 的 key，变成 4 台后假设原来 2 复制成 2、4 两台，新的两台分应该别装着余 1 和余 3 的 key，但这些 key 都是除 2 余 1 的子集。新 2 应该删掉余 3 的那部分，新 4 删掉余 1 的）

还拿刚开始说小数法的 4 台 server 的例子，如果新增第五台，我们把他放在列表中第四台的后面（之后会说明这是最错误的情况），各段的范围会有变化，原来是 1/4、2/4、3/4 分隔，现在是 1/5、2/5、3/5、4/5 分隔，比方说如果有 key 被做成小数后得 0.22，那么原来他是在 0 到 1/4 这个段，应该存在第一台 server，变化后就到了 1/5 到 2/5 这个段。想知道有多少 key 所在的 server 变化了，可能用图片解释更简单一些。

[img][file=103][/img]

两排线段分别表示 4 台和 5 台 server 的情况，而黄色的部分，表示在变化后还有多少数据保留在原 server 上，相信数学好的可以马上给函数出来了，可惜我只会四则运算，只能画这么个图了。

当然，我前面说过这么放是错误的，应该把新 server 5 放在 2 和 3 之间，这样可以保留的数据会变成这样。

[img][file=104][/img]

当 server 数量拓展到无穷大的时候，如果把一台新 server 放在原有列表的尾部和中间的时候，数据被保留的数量如下：

[img][file=105][/img]

如果放的不是一台，而是多台，情况可能是这样（分数表示新机器所处的位置，两条分别表示新机器全部放在列表尾部或放在合适位置这两种情况），但最多保留 3/4 的数据，这是可以肯定的了

[img][file=107][/img]

[hr]

还有一些其他的想法（只是想法，说不上经验）

如果某台 server 挂了，不要尝试重连（如果 memcached 没挂会让压力问题恶化，如果已经挂了还是浪费时间等超时）、不要尝试寻求替补 server（这跟 httpd 和 db 处理方式很不一样，当然我说的替补是指另外一台编号的机器，而非原机下线后的备份），cache 就是 cache，只是 db 的挡箭牌，cache 挂了就直接找 db，应该把精力集中在及时判断 memcached 出问题时及时重启、再有问题备份机跟上这些方面，假设命中比 80%，10 台 memcached，挂掉一台会让 MySQL 的压力提升 40%（(1 - 80% * 9/10) / (1 - 80%) - 1），但只持续最多 5 - 10 分钟，应该问题不是很大。

很重要的一条（也很好实现的一条），如果连接服务器失败，PHP 里应该相应的返回一个替补空对象来代替 new Memcache() 所生成的对象，这个替补对象具有原来对象所有的方法，只是所有方法都不做任何处理，直接返回 false（唯独 add 方法可能需要返回 true，自己体会），以实现之前所说的不要尝试重连。

有人跟我说过 [url=http://code.google.com/p/flexihash/]flexihash[/url] 或者别的什么算法，说实在的，我看不懂，也不想花时间看懂。仅根据大量随机 key 做测试的结果来看我就知道不是我想要的东西，也就没再细研究。

大体我明白其意思，在高度冗余的前提下保证服务器变化时损失最小（比方说电驴里的 KAD 这种应用），我所能接触到的规模，第一，服务器不会经常变化，第二，规模没大到需要为服务器多花很多钱买冗余的程度。比方说，同样多的数据，用 crc32 可能需要 10 台机器，用 flexihash 可能需要 20 台，不然由于木桶短板，有的 server 抗不住（哪怕不是说硬件负载，而仅仅是因为容量不够导致的命中比下降），但同样这 20 台，用 crc32 可能出问题的几率更小。等到 facebook 及以上级别需要为规模的诅咒多花钱了，但是，如果主要应用还局限在一个机房内，还是 crc32 更有效

不管怎么说，我都认为大家需要为 Memcached 做更多的探索，仅从 Sharding 的算法来说，旧有的针对 db 或者别的什么算法都不适合直接套在 Memcached 上，而有些问题的争议（比方前面说的连接失败时要不要继续选择别的 server）可能还未盖棺定论。