什么是哈希表?什么是set和Map集合?他们之间有什么关系

比眉伴天荒 2023-09-27 14:23 58阅读 0赞

哈希表

一、什么是哈希表

哈希表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。

哈希作为一个非常常用的查找数据结构,它能够在O(1) 的时间复杂度下进行数据查找。

举个栗子:

数据集合{1,7,6,4,5,9};
哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
d3d17ebeaa8f42b68c6e7562c24513de.png该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快 问题:按照上述哈希方式,向集合中插入元素44,会出现什么问题?

很明显,44和4的地址通过这个哈希函数算出来的是一样的,这样这两个数在存储的时候地址相同但是只能存储一个数,这就是冲突。

(用哈希表来查找数据的方法是hashCode()方法。)

二、冲突

1.什么是冲突:

对于两个数据元素的关键字 和 (i != j),有 != ,但有:Hash( ) == Hash( ),即:不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。
把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

冲突的发生是必然的,但是我们应该尽可能的降低冲突率。

那我们如何降低冲突呢?

2、哈希函数函数的设计原则:

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间。
  • 哈希函数计算出来的地址能均匀分布在整个空间中。
  • 哈希函数应该比较简单。

3、常见的哈希函数设计方法:

1. 直接定制法—(常用)
取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B

优点:简单、均匀

缺点:需要事先知道关键字的分布情况 使用场景:适合查找比较小且连续的情况
2. 除留余数法—(常用)
设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:
Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

  1. 平方取中法—(了解)
    假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址; 再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址 平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况。
  2. 折叠法—(了解)
    折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。
    折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况
  3. 随机数法—(了解)
    选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。通常应用于关键字长度不等时采用此法
  4. 数学分析法—(了解)

设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某
些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据
散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。例如:
472a3d6ca04648c790f04c6af124c8f9.png
数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况。

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突。

4、负载因子是什么?

6316f8dd325747cd87296a25c23e0fdc.png

所以当冲突率达到一个无法忍受的程度时,我们需要通过降低负载因子来变相的降低冲突率。
已知哈希表中已有的关键字个数是不可变的,那我们能调整的就只有哈希表中的数组的大小

5、解决冲突的方法

解决哈希冲突两种常见的方法是:闭散列和开散列
1.闭散列(开放定址法)

(1)线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。。

69b4517f0bd94ce78b98619671ebb5fa.png

(2)二次探测:H= (H0± i^2)%m,其中i= 1,2,3…(简单来说就是h0+1,h0-1,h0+2,h0-2,h0+4,h0-4…,)

a3b357d02b4c498b868c236aeaa84acc.png

2、 开散列(哈希桶)

开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

举个栗子:

8ac39ce69ecd4c178824087711145268.png

注意:一般设计是当链表中节点的个数等于8的时候,就将链表转换为红黑树,删除时,当红黑树中的节点个数小于6的时候,再将红黑树转换位链表。

6、性能分析:

虽然哈希表一直在和冲突做斗争,但在实际使用过程中,我们认为哈希表的冲突率是不高的,冲突个数是可控的,也就是每个桶中的链表的长度是一个常数,所以,通常意义下,我们认为哈希表的插入/删除/查找时间复杂度是O(1) 。

7、哈希表和 java 类集的关系

  1. HashMap 和 HashSet 即 java 中利用哈希表实现的 Map 和 Set
  2. java 中使用的是哈希桶方式解决冲突的
  3. java 会在冲突链表长度大于一定阈值后(8),将链表转变为搜索树(红黑树)
  4. java 中计算哈希值实际上是调用的类的 hashCode 方法,进行 key 的相等性比较是调用 key 的 equals 方法。所以如果要用自定义类作为 HashMap 的 key 或者 HashSet 的值,必须覆写 hashCode 和 equals 方法,而且要做到 equals 相等的对象,hashCode 一定是一致的。

Map和set是一种专门用来进行搜索的容器或者数据结构,其搜索的效率与其具体的实例化子类有关。(一种适合动态查找的集合容器)

set集合

9d1618ab0ed14a899cb6d0980c3e99ed.png

set接口,Set是继承自Collection的接口类

HashSet,TreeSet,LinkedHashSet实现类

一、set集合常用的方法
















































方法 解释
boolean add(E e) 添加元素,但重复元素不会被添加成功
void clear() 清空集合
boolean contains(Object o) 判断 o 是否在集合中
Iterator<E> iterator() 返回迭代器
boolean remove(Object o) 删除集合中的 o
int size() 返回set中元素的个数
boolean isEmpty() 检测set是否为空,空返回true,否则返回false
Object[] toArray() 将set中的元素转换为数组返回
boolean containsAll(Collection<?> c) 集合c中的元素是否在set中全部存在,是返回true,否则返回
false
boolean addAll(Collection<? extends
E> c)
将集合c中的元素添加到set中,可以达到去重的效果

二、HashSet

1.**HashSet的底层原理:**

HashSet集合底层采取哈希表存储的数据。

2.HashSet**去重复原理解析**

  1. 创建一个默认长度的数组,数组名
  2. 根据元素的哈希值数组的长度求余计算出应存入的位置(哈希算法)
  3. 判断当前位置是否为null,如果是null直接存入
  4. 如果位置不为null,表示有元素,则调用equals方法比较
  5. 如果一样,则不存,如果不一样,则存入数组,
  6. 结论:如果希望**Set集合认为2个内容一样的对象是重复的,必须重写对象的hashCode()equals()**方法

(如果只重写hashC,即使两个元素相等也会被判断为不相等,数组里会有相同的元素。如果只重写equals方法,两个相等的元素内存地址不相等,这两种情况都会造成元素的重复。所以最好的方法是同时重写这两个方法。

hashCode方法用来最快时间内判断是否相等,保证了性能,equals方法用来判断两个数据是否相等,用来保证可靠)

Set集合去重复原因:

先通过hashCode方法计算出哈希地址,判断哈希值算出来的存储位置是否相同(是否发生冲突),如果地址相同通过equals判断内容是否相同,如果相同就不会存储该内容,如果不同,则通过冲突的解决方法存到另一个地址去。
1a02432839f34e88981ca892963f94ce.png

三、 LinkedHashSet

1.LinkedHashSet**集合概述和特点**

特点:有序 、不重复、无索引。

这里的有序指的是保证存储和取出的元素顺序一致

原理 :底层数据结构是依然哈希表,只是每个元素又额外的多了一个 双链表 的机制记录存储的顺序。

四、TreeSet

1.TreeSet**集合概述和特点**

不重复、无索引、 可排序

可排序:按照元素的大小默认升序(有小到大)排序。

TreeSet 集合底层是基于 红黑树的数据结构 实现排序的,增删改查性能都较好。

注意: TreeSet 集合是一定要排序的,可以将元素按照指定的规则进行排序。

68b2bed3782f43e8a997f2e3fd22533b.png

2、TreeSet**集合默认的规则**

对于数值类型: Integer , Double ,官方默认按照大小进行升序排序。

对于字符串类型:默认按照首字符的编号升序排序。

对于自定义类型如 Student 对象, TreeSet 无法直接排序,需要自定义排序规则。

自定义排序规则

方式一

l 让自定义的类(如学生类) 实现 Comparable 接口 重写里面的 compareTo 方法 来定制比较规则。 110442b37faf47028aaabbc8f58b09f0.png

方式二

TreeSet 集合有参数构造器,可以设置 Comparator 接口对应的比较器对象,来定制比较规则。

4685ba16d6c74ca49b6db779f64fd04e.png

两种方式中,关于返回值的规则:

l 如果认为第一个元素大于第二个元素返回正整数即可。

l 如果认为第一个元素小于第二个元素返回负整数即可。

l 如果认为第一个元素等于第二个元素返回 0 即可,此时 Treeset 集合只会保留一个元素,认为两者重复。

注意:如果**TreeSet**集合存储的对象有实现比较规则,集合也自带比较器,默认使用集合自带的比较器排序。

五、小结

  1. Set 系列集合的特点。

无序:存取顺序不一致

不重复:可以去除重复

无索引:没有带索引的方法,所以不能使用普通for 循环遍历,也不能通过索引来获取元素。

  1. Set 集合的实现类特点。

HashSet 无序、不重复、无索引。

LinkedHashSet 有序 、不重复、无索引。

TreeSet 可排序 、不重复、无索引。

3.注意点:1. Set是继承自Collection的一个接口类

  1. Set中只存储了key,并且要求key一定要唯一
  2. TreeSet的底层是使用Map来实现的,其使用key与Object的一个默认对象作为键值对插入到Map中的
  3. Set最大的功能就是对集合中的元素进行去重
  4. 实现Set接口的常用类有TreeSet和HashSet,还有一个LinkedHashSet,LinkedHashSet是在HashSet的基础
    上维护了一个双向链表来记录元素的插入次序。
  5. Set中的Key不能修改,如果要修改,先将原来的删除掉,然后再重新插入
  6. TreeSet中不能插入null的key,HashSet可以。
  7. TreeSet和HashSet的区别






































Set底层结构 TreeSet HashSet
底层结构 红黑树 哈希桶
插入/删除/查找时间
复杂度
O(log N) O(1)
线程安全 不安全 不安全
插入/删除/查找区别 按照红黑树的特性来进行插入和删除

1. 先计算key哈希地址

2. 然后进行插入和删除

比较与覆写 key必须能够比较,否则会抛出
ClassCastException异常
自定义类型需要覆写equals和
hashCode方法
应用场景 需要Key有序场景下 Key是否有序不关心,需要更高的时间性能

Map

一、Map**集合概述**

  1. Map集合是一种双列集合,每个元素包含两个数据,Map是一个接口类,该类没有继承自Collection。
  2. Map集合的每个元素的格式:key=value(键值对元素)。
  3. Map集合也被称为“键值对集合”。
  4. Map集合的完整格式:{key1=value1 , key2=value2 , key3=value3 , …}

0202f392a60e44daa45b048a0b333990.png

二、Map常用的方法




















方法 解释
K getKey() 返回 entry 中的 key
V getValue() 返回 entry 中的 value
V setValue(V value) 将键值对中的value替换为指定value







































V get(Object key) 返回 key 对应的 value
V getOrDefault(Object key, V defaultValue) 返回 key 对应的 value,key 不存在,返回默认值
V put(K key, V value) 设置 key 对应的 value
V remove(Object key) 删除 key 对应的映射关系
Set<K> keySet() 返回所有 key 的不重复集合
Collection<V> values() 返回所有 value 的可重复集合
Set<Map.Entry<K, V>> entrySet() 返回所有的 key-value 映射关系
boolean containsKey(Object key) 判断是否包含 key
boolean containsValue(Object value) 判断是否包含value

三、**HashMap**

HashMap**的特点和底层原理**

HashMap是Map里面的一个实现类。

特点都是由键决定的:无序、不重复、无索引

依赖hashCode方法和equals方法保证的唯一。

如果要存储的是自定义对象,需要重写hashCode和equals方法。

HashMap跟HashSet底层原理是一模一样的,都是哈希表结构,只是HashMap的每个元素包含两个值(key和value)。

四、LinkedHashMap**集合概述和特点**

由键决定:有序、不重复、无索引。

这里的有序指的是保证存储和取出的元素顺序一致

原理:底层数据结构是依然哈希表,只是每个键值对元素又额外的多了一个双链表的机制记录存储的顺序。

五、TreeMap**集合概述和特点**

由键决定特性:不重复、无索引、可排序

可排序:按照键数据的大小默认升序(有小到大)排序。 只能对键排序。

注意: TreeMap 集合是一定要排序的,可以默认排序,也可以将键按照指定的规则进行排序

TreeMap 跟 TreeSet 一样底层原理是一样的。

TreeMap集合自定义排序规则有2种(与TreeSet一样 )

六、小结

1.Map**集合体系特点**

Map集合的特点都是由键决定的。

Map集合的键是无序,不重复的,无索引的,值不做要求(可以重复)。

Map集合后面重复的键对应的值会覆盖前面重复键的值。

Map集合的键值对都可以为null。

2.Map**集合实现类特点**

HashMap:元素按照键是无序,不重复,无索引,值不做要求,基于哈希表(与Map体系一致)

LinkedHashMap:元素按照键是有序,不重复,无索引,值不做要求,基于哈希表

TreeMap:元素只能按照键排序,不重复,无索引的,值不做要求,可以做排序

3.注意:

  1. Map是一个接口,不能直接实例化对象,如果要实例化对象只能实例化其实现类TreeMap或者HashMap
  2. Map中存放键值对的Key是唯一的,value是可以重复的
  3. 在TreeMap中插入键值对时,key不能为空,否则就会抛NullPointerException异常,value可以为空。但是HashMap的key和value都可以为空。
  4. Map中的Key可以全部分离出来,存储到Set中来进行访问(因为Key不能重复)。
  5. Map中的value可以全部分离出来,存储在Collection的任何一个子集合中(value可能有重复)。
  6. Map中键值对的Key不能直接修改,value可以修改,如果要修改key,只能先将该key删除掉,然后再来进行重新插入。
  7. TreeMap和HashMap的区别










































Map底层结构 TreeMap HashMap
底层结构 红黑树 哈希桶
插入/删除/查找时间
复杂度
O(1)
是否有序 关于Key有序 无序
线程安全 不安全 不安全
插入/删除/查找区别 需要进行元素比较 通过哈希函数计算哈希地址
比较与覆写 key必须能够比较,否则会抛出
ClassCastException异常
自定义类型需要覆写equals和
hashCode方法
应用场景 需要Key有序场景下 Key是否有序不关心,需要更高的
时间性

#

发表评论

表情:
评论列表 (有 0 条评论,58人围观)

还没有评论,来说两句吧...

相关阅读

    相关 什么

    哈希表(Hash table)是一种数据结构,它通过计算一个哈希函数,将键映射到表中的一个位置,然后使用该位置来存储值。哈希表可以用来快速查找、插入和删除数据。哈希表的查找和插

    相关 什么

    哈希值是什么 哈希值就是文件的身份证,不过比身份证还严格。他是根据文件大小,时间,类型,创作着,机器等计算出来的,很容易就会发生变化,谁也不能预料下一个号码是多少,也没有更改