一致性哈希算法

快来打我* 2021-06-10 20:40 670阅读 0赞

场景如下:

  • 有三台缓存服务器分别为A、B、C,编号依次为1、2、3,现在有N张名称不重复的图片平均分配到每台服务器上进行缓存,如何设计一套算法,使得每次图片请求都能命中该图片所在的缓存服务器呢?
  • 传统的做法是,得到每张图片的名字的哈希值,然后对服务器数量进行取模,得到的值就是对应的服务器编号。
  • 如:现在有一张图片为a.jpg,通过hash(a.jpg)得到一个哈希值9,因为我们有三台服务器,就用9对3进行取模运算得到0,那么就将a.jpg缓存到A这台服务器上,每次请求a.jpg的时候就通过同样的算法知道该图片缓存在哪台服务器上了。

那么问题来了,如果现在要添加或者删除N台服务器会怎么样呢?

我们以添加一台服务器D为例,其编号为4,在原有hash方法不变的情况下,a.jpg对应的哈希值仍然是9,但此时我们有4台服务器了,所以需要用9对4进行取模,得到1,也就是对应服务器B,而我们知道a.jpg是缓存在服务器A中的,此时缓存将无法命中。

当缓存服务器数量发生变化时,几乎所有请求指向的缓存服务器都会发生改变,会引起缓存的雪崩,可能会引起整体系统压力过大而崩溃(大量缓存同一时间失效)。

解决以上问题的方案就是一致性哈希算法

什么是一致性哈希算法

一致性哈希算法在1997年由麻省理工学院提出,是一种特殊的哈希算法,目的是解决分布式缓存的问题。 [1] 在移除或者添加一个服务器时,能够尽可能小地改变已存在的服务请求与处理请求服务器之间的映射关系。一致性哈希解决了简单哈希算法在分布式哈希表( Distributed Hash Table,DHT) 中存在的动态伸缩等问题 [2] 。

说人话就是,一致性哈希算法也是通过取模的方式找到请求对应的服务器,只不过,它是以 2^32取模。
我们假设现在有一个圆环,将这个圆环均分 2^32 份,那么它上面便有 2^32 个点,所以每个请求对应的hash值取模的结果必然是在[0,2^32]这个区间上的一个点。

在这里插入图片描述
我们在这个环上取三个点对应三台服务器A、B、C,其中C到A的区间为是s1,A到B的区间为s2,B到C的区间为s3。此时若有一个点落在s1圆弧上,则通过顺时针方向找到最近的服务器就是A,至此,一致性哈希基本完成。
在这里插入图片描述

但是上诉一致性哈希算法依然有一个缺陷,那就是每个请求对应的哈希值分布的区间并非是均匀的,就会出现某个或几个服务器负载会异常高的情况。

所以便引入了虚拟节点的概念,每台服务器对应多个虚拟节点,也就对应环上多个点,N个虚拟节点将服务器分成了N个区间,这样使得每个请求落在各个服务器的概率趋于平均。

在这里插入图片描述

源码如下:

  1. //物理节点集合 用String 类型表示
  2. private List<String> physicalIps = new ArrayList<>();
  3. //每个物理ip对应实现的虚拟节点数
  4. private Map<String, List<Integer>> physicalIp2Virtuals = new HashMap<>();
  5. //每个物理ip分配的虚拟节点数量,默认0
  6. private int virtualsNum;
  7. //虚拟节点对应的物理节点 相当于环 用TreeMap实现红黑树存储
  8. private SortedMap<Integer, String> sortedMap = new TreeMap<>();
  9. public ConsistencyHash(int virtualsNum) {
  10. this.virtualsNum = virtualsNum;
  11. }
  12. public ConsistencyHash() {
  13. }
  14. /**
  15. * 增加物理ip 到环
  16. */
  17. public void addServer(String physicalIp) {
  18. this.physicalIps.add(physicalIp);
  19. //加入物理ip对应的虚拟集合
  20. ArrayList<Integer> virtuals = new ArrayList<>();
  21. this.physicalIp2Virtuals.put(physicalIp, virtuals);
  22. int count = 0, i = 0;
  23. while (count < this.virtualsNum) {
  24. i++;
  25. int hash = getHash(physicalIp+"&&v-"+i);
  26. //解决hash碰撞问题
  27. if (!sortedMap.containsKey(hash)) {
  28. virtuals.add(hash);
  29. this.sortedMap.put(hash, physicalIp);
  30. count ++;
  31. }
  32. // System.out.println(count);
  33. }
  34. }
  35. /**
  36. * 获取物理ip
  37. */
  38. public String getServer(String key){
  39. int hash = getHash(key);
  40. //获取大于环上大于key hash的所有虚拟对应 物理ip
  41. SortedMap<Integer, String> integerStringSortedMap = this.sortedMap.tailMap(hash);
  42. if (!integerStringSortedMap.isEmpty()){
  43. return integerStringSortedMap.get(integerStringSortedMap.firstKey());
  44. }else { //没有数据时 取第一个虚拟节点上的 物理ip 顺时针取值
  45. return this.sortedMap.get(sortedMap.firstKey());
  46. }
  47. }
  48. /**
  49. * 移除物理ip
  50. */
  51. public void removeServer(String physicalIp){
  52. //获得此物理ip 对应所有虚拟节点
  53. List<Integer> integers = this.physicalIp2Virtuals.get(physicalIp);
  54. if (!integers.isEmpty()) {
  55. for (Integer integer : integers) {
  56. this.sortedMap.remove(integer);
  57. }
  58. }
  59. this.physicalIps.remove(physicalIp);
  60. this.physicalIp2Virtuals.remove(physicalIp);
  61. }
  62. //计算hash值
  63. public static int getHash(String str) {
  64. final int p = 16777619;
  65. int hash = (int) 2166136261L;
  66. for (int i = 0; i < str.length(); i++)
  67. hash = (hash ^ str.charAt(i)) * p;
  68. hash += hash << 13;
  69. hash ^= hash >> 7;
  70. hash += hash << 3;
  71. hash ^= hash >> 17;
  72. hash += hash << 5;
  73. // 如果算出来的值为负数则取其绝对值
  74. if (hash < 0)
  75. hash = Math.abs(hash);
  76. return hash;
  77. }

发表评论

表情:
评论列表 (有 0 条评论,670人围观)

还没有评论,来说两句吧...

相关阅读

    相关 一致性算法

    一致性哈希算法常用于分布式缓存的场景。通过关键字key从多个节点(也就是服务器)中找到缓存数据所在的节点。 一致性哈希算法是一种特殊的哈希算法。在使用一致性哈希算法后,哈希表

    相关 一致性算法

      一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希

    相关 一致性算法

    一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正

    相关 算法 一致性算法

    一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似。一致性哈希修正

    相关 一致性算法

    在讲本文的主题之前,我们先来看一个现实中的应用场景,那就是分布式缓存。 场景描述: 假设我们现在有三台服务器用于缓存我们的一些文件,比如图片。我么将这三台服务器进行编号便于

    相关 一致性算法

    场景如下: 有三台缓存服务器分别为A、B、C,编号依次为1、2、3,现在有N张名称不重复的图片平均分配到每台服务器上进行缓存,如何设计一套算法,使得每次图片请求都能